Neuer Ansatz

Codeknackertechnologie hilft bei Computer-Übersetzung

Informatiker am Information Sciences Institute (ISI) der University of Southern California arbeiten an einem neuen Ansatz, Computern das Übersetzen beizubringen. Sie behandeln fremdsprachige Texte praktisch als einen komplexen Code, den es zu knacken gilt.

Dieser Zugang hat großes Potenzial. Denn bisherige Methoden der maschinellen Übersetzung benötigen starre sprachspezifische Regeln oder zumindest eine umfangreiche Vergleichsdatenbank von Texten, damit sie funktionieren. Der Codeknacker-Ansatz dagegen funktioniert theoretisch sogar bei völlig unbekannten Sprachen.

Eine vergleichsweise flexible Methode ist die statistische maschinelle Übersetzung (SMT). Hier lernt der Computer durch den Vergleich inhaltlich identischer Texten in zwei Sprachen, welche Worte und Formulierungen einander entsprechen. Dem sind praktische Grenzen gesetzt. "Paralleldatensätze sind bei Sprachpaaren wie Englisch-Französisch sehr häufig, doch zu seltenen Sprachen gibt es kaum bilinguale Quellen", erklärt der ISI-Forschungsassistent Sujith Ravi gegenüber dem New Scientist. Zusammen mit seinem Kollegen Kevin Knight setzt er nun darauf, maschinelle Übersetzung einfach als eine Art Codeknacken zu behandeln.

Der Ansatz betrachtet zunächst, wie häufig einzelne Wörter in Texten vorkommen und leitet daraus ab, mit welcher Wahrscheinlichkeit sie englischen Begriffen entsprechen. Ein häufig vorkommendes Wort wird nämlich eher eine gängige Bedeutung wie "das" oder "ein" haben, als ein seltener Fachbegriff zu sein. Eine zweite Software-Komponente prüft dann, ob die Übersetzung sinnvoll wirkt. Ist das nicht der Fall, passt das System die Wahrscheinlichkeiten an, um eine neue und hoffentlich bessere Übersetzung zu erhalten.

Der Codeknacker-Ansatz steckt freilich noch in den Kinderschuhen. Die Forscher haben ihn zunächst für maschinelle Übersetzungen vom Spanischen ins Englische getestet, aber bisher nur an einigen kurzen Phrasen für Zeitangaben sowie einer Datenbank mit Filmuntertiteln getestet. Die Qualität der Übersetzung war den Informatikern zufolge mit jener vergleichbar, die zwei gängige SMT-Methoden liefern. Noch ist aber nicht geklärt, ob die "einsprachige" Übersetzung das hohe Qualitätsniveau auch bei längern Texten halten kann.

Die Informatiker haben sich auch schon damit befasst, ob ihre Methoden unbekannte Texte entschlüsseln können. So ist es ihnen gelungen, auf diese Art maschinell eine der Nachrichten des berüchtigten Zodiac-Killers, eines bis heute nicht identifizierten US-Serienmörders der späten 60er, zu entziffern. Theoretisch sollte dieser Ansatz auch bei Sprachen funktionieren, zu denen es keine Vergleichsdaten gibt und die uns völlig fremd sind. "Man könnte darüber nachdenken, Delphin-Sprache zu entschlüsseln", meint Ravi. (pte/hal)