Tool für historische Handschriften "Transkribus" wird Unternehmen

20. Juni 2018 - 11:59

Das derzeit noch akademische Projekt "Transkribus", das mit Hilfe großer Datenmengen historische Handschriften mit immer geringerer Fehlerquote entziffern können soll, wird ab dem Jahr 2020 den Geschäftsbetrieb als genossenschaftlich organisiertes Unternehmen aufnehmen. Zuvor hatte die EU zum Aufbau und zur Umsetzung der Plattform und Software 8,2 Millionen Euro zur Verfügung gestellt.

Screenshot Transcribus
Screenshot Transcribus

Mitte 2019 endet das millionenschwere Projekt vorerst. Doch am 15. Juni habe man von der Universität Innsbruck das "Go" bekommen ein Unternehmen auf die Beine stellen zu dürfen, erzählte Projektleiter Günter Mühlberger, der an der Universität Innsbruck im Bereich der Digitalisierung und elektronischen Archivierung arbeitet, im APA-Interview begeistert. Der noch fehlenden Business-Plan werde noch vorgelegt, kostenpflichtige Premium-Modelle der derzeit für User kostenlos herunterzuladenden Software noch genauestens konzipiert und nachgeschärft.

Erste potenzielle Kunden der lernenden Software gibt es schon, etwa das finnische Nationalarchiv, das ab 2019 höchstwahrscheinlich mit der Transkribus-Technologie arbeiten wird. Generell sei laut Mühlberger so gut wie jede Universität und jedes Archiv ein möglicher Transkribus-Nutzer. Mit dem Transkribus-Tool könne man die Bestände durchsuchbar machen.

Bereits Kooperationsvereinbarungen mit 70 Institutionen

Jetzt, ein paar Monate vor dem Verlassen des universitären Umfeldes und vor Markteintritt, habe man schon gute Zahlen vorzuweisen. Beispielsweise 13.000 registrierte Benutzer und Kooperationsvereinbarungen mit 70 Institutionen aus etwa 22 Ländern weltweit. Beteiligt sind an Transkribus neben der Universität Innsbruck, an der die Plattform ins Leben gerufen wurde, unter anderem auch die Universität Valencia und die Universität Rostock. Punkten will man am Markt vor allem damit, dass man bereits die "weltweit größte Sammlung an Trainingsdaten für handschriftliche Dokumente" habe, so Mühlberger. Derzeit seien mehr als 500 "neuronale Netze" trainiert und kaum einem Netz seien weniger als 100 bis 200 Seiten zugrunde gelegt.

Daten sind dabei von enormer Wichtigkeit. Da man es nicht mit einem Mainstream-Thema wie Gesichts- oder Nummerntafelerkennung zu tun hat, sondern mit der Erkennung von historischen Handschriften, die primär für Philologen oder Familienforscher beim Durchsuchen von alten Dokumenten interessant ist, sind diese rar. Je mehr Daten, desto besser könne das "neuronale" Netz nach internen Regeln und Mechanismen suchen und so den Zusammenhang zwischen Text und Schrift-Bild herstellen, erklärte der Projektleiter. Als Beispiel nannte Mühlberger die Arbeit eines Kollegen aus Frankreich. Dieser bearbeite die nachgelassenen Schriften des französischen Philosophen Michel Foucault. "Das Modell ist jetzt schon so gut, dass die Korrektur der anfallenden Fehler schneller geht als das reine Abschreiben", berichtete Mühlberger.

Für eine breitere Masse außerhalb der Universitäten und Archive dürfte das sogenannte Keyword-Spotting interessant sein. Im Zuge dieses Services kann ein beliebiger Begriff eingegeben und mit mittlerweile großer Wahrscheinlichkeit gefunden werden. Ein "typisches Dokument mit einer Kanzlei-Schrift" stelle schon jetzt kein großes Problem dar, führte Mühlberger aus. Er zeigte sich darüber hinaus zuversichtlich, dass künftig mit einem ständig wachsenden Daten-Pool auch bald das Tagebuch des Urgroßvaters oder der Urgroßmutter fehlerfrei lesbar sein wird, auch wenn diese eine "Sauklaue" gehabt hätten. Bei einer durchschnittlichen Kurrentschrift der eigenen Vorfahren liege man jetzt schon, bei 15.000 bis 20.000 Wörter die das "Netz" braucht um die Handschrift überhaupt gut zu erlernen, bei einer Fehlerquote von rund fünf Prozent auf Zeichenebene, führte Mühlberger aus. Zukunftsmusik bleibt hingegen - noch - das fehlerfreie Entziffern eines kurzen handschriftlichen Briefes der Familien-Ahnen.

Service: https://transkribus.eu/Transkribus

(APA/red, Foto: APA/transkribus.eu/Transkribus)

tutor18

Studium.at Logo

© 2010-2021  Hörsaal Advertainment GmbH

Kontakt - Werbung & Mediadaten - Datenschutz - Impressum

Studium.at versichert, sämtliche Inhalte nach bestem Wissen und Gewissen recherchiert und aufbereitet zu haben.
Für etwaige Fehlinformationen übernimmt Studium.at jedenfalls keine Haftung.