Anti-Spam-Tool hilft bei Digitalisierung alter Bücher

04.10.2007
Mit dem Projekt reCaptcha wollen Wissenschaftler der School of Computer Science an der Carnegie Mellon University (CMU) in Pittsburgh die Digitalisierung von alten Büchern unterstützen. Dazu setzen sie das Sicherheitstool Captcha ein, das im Internet sicherstellen soll, dass nur Menschen und keine programmierten Bots bestimmte Dienste wie Foreneinträge oder Erstellung eines E-Mail-Accounts nutzen können.

Bei einem Captcha muss der User einen leicht unleserlichen Text entziffern und diesen eintippen. Bei reCaptcha werden nun durch den Computer nicht erkannte Textstellen aus alten Büchern bei der Sicherheitsüberprüfung dargestellt. Beim Captcha-Test bekommt der User ein Bild angezeigt, in dem zumeist verzerrt eine Kombination aus Buchstaben und Zahlen enthalten ist. Der Nutzer muss diese zur Bestätigung in ein Eingabefeld übertragen und bestätigt damit, dass er ein Mensch ist und kein Bot.

Captchas gelten als äußerst zuverlässiges Sicherheitstool, wenngleich schon Schädlinge aufgetaucht sind, die die Überprüfung umgehen konnten. Laut den Verantwortlichen bei reCaptcha brauchen Menschen durchschnittlich zehn Sekunden für das Lösen eines Captchas. Hochgerechnet auf alle Internetuser weltweit seien dies 150.000 Arbeitsstunden täglich. Diese Zeit wollen die Programmierer nun sinnvoll nutzen, indem User sich durch diese Sicherheitsüberprüfung legitimieren und gleichzeitig die Digitalisierung der Bücher unterstützen.

Noch 400 Jahre Arbeit

Beim Einlesen der Bücher durch das Projekt Internet Archive kommt eine so genannte OCR-Software (Optical Character Recognition) zum Einsatz. Damit soll der Text von eingescannten Büchern für Maschinen lesbar gemacht werden. Allerdings tue sich diese Software bei einem von zehn Wörtern schwer und könne es nicht eindeutig identifizieren, was meist mit der Qualität der vorliegenden alten Bücher zu tun habe. Mit dem unbekannten Wort muss sich daher wiederum ein Mensch befassen.

Bei reCaptcha wird nun ein bereits erkanntes Wort mit einem unbekannten kombiniert. Der User muss beide Wörter eingeben, um sich zu authentifizieren. "Wenn jemand die korrekte Eingabe zu dem Wort macht, das wir bereits kennen, so vertrauen wir darauf, dass auch das unbekannte richtig ist", erklärt Luis von Ahn, Projektverantwortlicher für reCaptcha an der CMU.

Zur Sicherheit werde dies jedoch mit weiteren Captchas überprüft. Die Forscher hoffen, damit die Digitalisierung beschleunigen zu können. Wörter, um das Tool laufend mit neuen Aufgaben zu versorgen, gibt es genug. "Derzeit gibt es etwa 100 Mio. Bücher, die digitalisiert werden sollen. Mit der aktuellen Geschwindigkeit werden wir dafür noch etwa 400 Jahre brauchen", meint von Ahn. (pte/mje)