Über die Schwierigkeiten bei der Digitalisierung

Kleiner Zwischenstand meiner Arbeiten am Ende November gestarteten Digitalisierungsprojekt Otto Titan von Hefner. Derweil ich mit dem Musterbuch erstaunlich schnell zu vorzeigbaren Ergebnissen kam, stocken meine Bemühungen um das für meine Zwecke viel interessantere Handbuch (1861). Am Text des Handbuches ist unglaublich viel mehr zu ersetzen als beim Musterbuch, es sind unglaublich viele Fehler vorhanden, obwohl der Text auf den ersten Blick ganz Ok ausschaut, und man glaubt, es würde reichen nur die Überschriften rauszustreichen und die Fußnoten einhängen zu müssen. Der Text ist so voller Fehler, dass die automatische Fehleranmerkungsfunktion von Word sich schnell für überfordert erklärt hat.
Der Urgrund liegt in den gewählten Schriftsätzen liegen, dann damals verwendeten die Deutschen noch nicht westliche Schriftsätze, sondern liebten ihre eigenen, was letztes Jahr ja auch Jean van Win so viele Schwierigkeiten bereitete (und dann mir). Beim späteren Musterbuch griff OTvH bereits auf einen lateinischeren Schriftsatz zurück, weshalb meine bevorzugte OCR Software Omnipage 17 hier relativ gute Ergebnisse brachte, beim Handbuch versagt sie! Es ist dabei nicht einfach so, dass das Buch nur einen altdeutschen Schriftsatz verwendet: wenn OTvH englisch, französisch oder lateinische Sätze zitiert, verwendet das Buch wieder den lateinischen Schriftsatz, was die OCR Softwares wohl völlig aus dem Konzept bringt.

Am besten gebe ich hierzu ein Beispiel; z.Z. bin ich auf Seite 19 (von 264!):

posting-Dig-OTVH-Beispiel

Das machte Omnipage 17 daraus:

Go bal Siegel .enn Sigmunb4 »on ($ erolbê ed, teaêgauer elbelê »om 2. 1265 (IV. 23), runb mit breietigetn mit Sd)inbeln befdten Sd)ilbe, borin ein getrônter Mye (rotb in Eilber, , Ed)inbeln Wou), unb ber Unie ftbrift: S . SIMVNDI . DE . GEROLTESECICE eider gebôrt aucb baê Siegel eine. ®rofen Don Dettingen (IV. 27) mit ber Umfdnift: t SIGILLVM COMITIS . DE . OTINGEH auê bem 2. 1220, tueld)eê innen einen Sffilb , fongruirenb mit ber Siegelform , entbd1t. Zer (blaue) Scbilb bat eine eine faffung »on eifenbûtlein ober $elèmert 2) (rotb unb gon)) unb borner ge8ogen einen (filbernen) Sd)ragen.

Wie man sieht ist der Text bestenfalls zu erahnen. Nur die lateineischen Siegelumschriften sind richtig erkannt (s.u.). Zunächst hatte ich mir vorgestellt, nach und nach bestimmte regelmässig wiederkehrende Fehler zu erkennen und im ganzen Text zu ersetzen, aber hier sind es so viele dass mir klar wurde, dass ich eine bessere Methode finden muss. oder aber das Projekt aufgeben muss.

Dann besah ich mir noch mal genauer, wie So wurde der Text von Google Books1 eigener Software digitalisiert:

So das Siegel Herrn Sigmunds von Geroldseck. wasgauer Adels. vom J. 1265 (l7. 23). rund mit dreiekigem mit Shindeln befäten Schilde. darin ein gekrönter Löwe (roth in Silber. Shindeln blau). und der Um fhrift: *- 8 . 8lb17dlyl . O14). ELLGUUWLEW. Hieher gehört auh das Siegel eines Grafen von Oettingen (l7. 27) mit der Umfhrift: *l* NEU-1.7111. 001141138 .1)1) . 011861-38 aus dem J. 1220. welhes innen einen Shild. kongruirend mit der Siegelform. enthält. Der (blaue) Schild hat eine Ein faffung von Eifenhütlein oder Velzwerk 2) (roth und gold) und darüber gezogen einen (filbernen) Shragen.

Wie wir sehen, ist Googles Software gar nicht mal so schlecht, man merkt schon dass hier Profis der Digitalisierung am Werke sind. Leider wird der Text immer nur Seite für Seite angeboten. Will man den vollständigen Text haben, muss man ihn Seite für Seite kopieren, was ich am Ende gemacht habe. Hier führt die Methode der Ersetzung sicherlich zum Erfolg, wenn wir häufige Wörter wie “faffung” durch “fassung” ersetzen, “fhrift” durch “schrift” etc.
Googles Software hat sich gut auf den “gotischen” Schriftsatz eingestellt und scheitert vor allem an der Ähnlichkeit von “s” und “f” in der altdeutschen Schrift. Schwierigkeiten bereiten ihr hingegen die in lateinischer Schrift gedruckten fremdsprachigen Einsprengsel, wovon es nicht gerade wenig gibt!

Letztlich gehe ich nun kombiniert vor, dass ich mir die fremdsprachigen Schnipsel aus der bei diesen Sätzen erstaunlich gut digitalisierten von Omnipage generierten Datei hole und in den von Google abkopierten Text einfüge.

Zum Schluss zeige ich noch, so möchte ich es haben:

So das Siegel Herrn Sigmunds von Geroldseck, wasgauer Adels, vom J. 1265 (IV. 23), rund mit dreieckigem mit Schindeln besäten Schilde, darin, ein gekrönter Löwe (rot in Silber, Schindeln blau), und der Umschrift: * S . SIMVNDI . DE . GEROLTESECKE. Hierher gehört auch das Siegel eines Grafen von Oettingen (IV. 27) mit der Umschrift: + SIGILLVM COMITIS . DE . OTINGEH aus dem J. 1220, welches innen einen Schild, kongruierend mit der Siegelform, enthält. Der (blaue) Schild hat eine Einfassung von Eisenhütlein oder Pelzwerk 2) (rot und gold) und darüber gezogen einen (silbernen) Schragen.

Man bemerke, ich bevorzuge der leichteren Lesbarkeit wegen, die heutige Schreibweise “rot” statt “roth”, oder “bloß” statt “blos”, “-ierend” statt “-irend”, etc.

  1. Das von Google Books bereitgestellt Rohmaterial kann unter http://books.google.de/books?id=qV8BAAAAQAAJ&printsec=frontcover#v=onepage&q&f=false konsultiert werden. Zum nachsuchen und zitieren eignen sich diese Darstellungen aber kaum, weshalb ich mein Versuch der Schaffung eines Mehrwertes ja auch angehe. []

Leave a Reply

Your email address will not be published. Required fields are marked *