Anti-Spam-Tool hilft bei Digitalisierung alter Bücher

Noch 400 Jahre Arbeit

Beim Einlesen der Bücher durch das Projekt Internet Archive kommt eine so genannte OCR-Software (Optical Character Recognition) zum Einsatz. Damit soll der Text von eingescannten Büchern für Maschinen lesbar gemacht werden. Allerdings tue sich diese Software bei einem von zehn Wörtern schwer und könne es nicht eindeutig identifizieren, was meist mit der Qualität der vorliegenden alten Bücher zu tun habe. Mit dem unbekannten Wort muss sich daher wiederum ein Mensch befassen.

Bei reCaptcha wird nun ein bereits erkanntes Wort mit einem unbekannten kombiniert. Der User muss beide Wörter eingeben, um sich zu authentifizieren. "Wenn jemand die korrekte Eingabe zu dem Wort macht, das wir bereits kennen, so vertrauen wir darauf, dass auch das unbekannte richtig ist", erklärt Luis von Ahn, Projektverantwortlicher für reCaptcha an der CMU.

Zur Sicherheit werde dies jedoch mit weiteren Captchas überprüft. Die Forscher hoffen, damit die Digitalisierung beschleunigen zu können. Wörter, um das Tool laufend mit neuen Aufgaben zu versorgen, gibt es genug. "Derzeit gibt es etwa 100 Mio. Bücher, die digitalisiert werden sollen. Mit der aktuellen Geschwindigkeit werden wir dafür noch etwa 400 Jahre brauchen", meint von Ahn. (pte/mje)