Suchen im Sprachen-Dschungel

28.12.2001 von Dr. Thomas Mandel

Die sprachübergreifende Suche im Internet stellt Suchmaschinen vor große Herausforderungen. Das Cross Language Evaluation Forum hat eine Methode für die Bewertung derartiger Suchverfahren entwickelt.

Wie kann man Internet-Suchmaschinen bewerten und vergleichen? Diese Frage beschäftigt Forscher aus dem Bereich Information Retrieval seit einigen Jahren. Mit der wachsenden Informationsflut wurde diese Aufgabe zunehmend schwieriger. Neben der großen Datenmenge bringt das Internet weitere Probleme. Die Flüchtigkeit führt zu toten Links, die Dokumente sind durch Links verbunden und die Texte sind hinsichtlich Qualität, Länge, Technik und Sprache sehr heterogen.

Besonders schwierig für Suchverfahren ist die Vielsprachigkeit der Dokumente. Die meisten Benutzer stellen ihre Anfrage in einer ihnen vertrauten Sprache, akzeptieren aber als Ergebnis auch Dokumente in anderen Sprachen, die sie etwa nur passiv verstehen.

Die Bewertung von derart sprachübergreifenden Suchverfahren ist sehr komplex. Seit drei Jahren hat die europaweite Initiative CLEF (Cross Language Evaluation Forum) dafür eine Methode und eine Infrastruktur entwickelt. Jedes Jahr stellt das CLEF eine Sammlung von Aufgaben in mehreren Sprachen bereit, an denen sich die Programmierer und Anbieter von Information Retrieval Systemen messen. Die Resultate werden auf einem Workshop präsentiert. So wird die Leistung der Systeme vergleichbar. Die hohen Teilnehmerzahlen vor allem in diesem Jahr zeigen, welche Bedeutung diesem Thema inzwischen zukommt.

Information Retrieval (IR)

Information Retrieval (IR) im Allgemeinen beschäftigt sich mit der Suche nach Informationen sowie der Repräsentation, Speicherung und Organisation von Wissen. Es modelliert Informationsprozesse, in denen Benutzer aus einer großen Menge von Wissen die für ihre Fragestellung relevante Teilmenge suchen. Dabei entsteht Information, die im Gegensatz zum gespeicherten Wissen problembezogen und an den Kontext angepasst ist.

Eine Internet-Suchmaschine ist ebenfalls ein Information Retrieval System. Sie vergleicht die Anfrage des nach Informationen suchenden Benutzers mit den im System vorhandenen Dokumenten oder deren Repräsentationen. Ein Teil der Dokumente, die aus Sicht des Systems gut zu der Eingabe des Benutzers passen, wird dem Benutzer als Ergebnis vorgelegt. Das System sucht dazu die Dokumente, die der Anfrage sehr ähnlich sind.

Bewertung von IR-Systemen

Da Wissen überwiegend in der Form von Texten in natürlichen Sprachen vorliegt, betont Information Retrieval nach wie vor die Suche in Textdatenbanken. Parallel werden aber auch Systeme für Bilder, Video oder Musik entwickelt. Das Ziel von IR-Systemen besteht in der Zufriedenheit der Benutzer. Diese wird erreicht, wenn die ausgewiesenen Dokumente helfen, Probleme zu lösen.

Die Auswirkungen verschiedener Modelle, ihrer Parameter und ihrer Kombination auf dieses Ergebnis lassen sich a priori nicht vorhersagen. Deshalb nimmt die Evaluierung einen zentralen Platz in der IR-Forschung ein. Es geht dabei um folgende Fragestellung: "Wie gut ist das System darin, für den Benutzer relevantes Material aufzufinden, ohne ihn mit Ballast zu überschütten?" Sie wird anhand unterschiedlicher statistischer Größen gemessen. Am wichtigsten sind hier recall (bewertet den Anteil der gefundenen Dokumente aus allen relevanten Dokumenten) und precision (bewertet den Anteil relevanter Dokumente im Suchresultat). Der folgende Recall-Precision-Graph stellt die Genauigkeit des Suchergebnisses im Verhältnis zur relativen Anzahl der gefundenen Dokumente dar.

Die Qualität eines Systems lässt sich nicht absolut bewerten, entscheidendwichtig ist vielmehr der Standpunkt des Benutzers. Für einen Benutzer, der möglichst viele der relevanten Dokumente in seiner Antwortmenge erwartet, ist der Recall wichtig.

Tatsächlich betrachten Sucher im Internet meist nur die ersten zehn angebotenen Seiten. Für solche Nutzer kommt es eher auf die Precision an; unter den ersten zehn Dokumenten sollen sich möglichst viele relevante befinden.

Text REtrieval Conference (TREC)

Seit 1989 läuft in den USA das inzwischen wichtigste Projekt zur Bewertung der Qualität von Information Retrieval Systemen. Die vom National Institute of Standards and Technology (NIST) jährlich durchgeführte Text Retrieval Conference (TREC) stellt eine Infrastruktur für die Evaluierung von Systemen mit Massendaten zur Verfügung.

Da die Forscher für ihre Tests verschiedenste Textkollektionen benutzten, waren Ergebnisse oft nicht vergleichbar. TREC hat diese Situation verbessert. Die TREC-Konferenzen bieten eine einheitliche Testumgebung (Dokument-Kollektion) und sind als gemeinsame Plattform zum Leistungsvergleich organisiert. Die Beiträge werden jährlich publiziert. Als Trainingsdaten dienen die Kollektionen der Vorjahre, die intellektuelle Relevanzurteile enthalten. Dabei stufen Experten die Ergebnisse als relevant oder irrelevant für die entsprechende Frage ein. Im nächsten Jahr stehen diese menschlichen Urteile den Systemen zur Verfügung.

Der wichtigste Bestandteil der TREC-Experimente ist das Ad-hoc Retrieval. Ausgangspunkt ist hier die Standardsituation im Information Retrieval: Ein Benutzer stellt eine Anfrage, die Ergebnisse aus einer großen Menge von Textdokumenten liefert. Daneben gibt es Routing-Aufgaben, die einem automatisiertem Filter entsprechen. Feststehende Routing-Aufgaben begegnen dabei einem steten Strom von Dokumenten, aus dem die relevanten gefiltert werden.

Die Veranstalter erstellen die Anfragen (im TREC-Jargon Topics) in drei Detaillierungsebenen. Neben Überschrift und Kurzbeschreibung in einem Satz gibt es eine so genannte Langbeschreibung. Die Teilnehmer entscheiden sich für eine Fassung und arbeiten damit. Inzwischen wurden die Ad-hoc-Experimente durch einen Webtrack ersetzt, der auf einer Momentaufnahme eines kleinen Teils des Internets basiert. Dabei werden auch reale Internet-Suchmaschinen mit traditionellen Retrieval-Systemen verglichen.

Cross-Language Evaluation Forum (CLEF)

Einer der größten Schwachpunkte von TREC besteht in der starken Fokussierung auf das Englische. TREC hat auch erste Evaluierungen mit spanischen und chinesischen Textdokumenten durchgeführt, die Integration anderer Sprachen erwies sich jedoch als schwierig.

Darauf reagiert nun das Cross Language Evaluation Forum (CLEF), in dem die Situation des cross-lingualen Retrievals evaluiert wird. Hier sollen ausgehend von einer Anfrage in einer Sprache auch Dokumente in anderen Sprachen gefunden werden. Am Projekt beteiligt sind neben der Universität Hildesheim unter anderem das Istituto di Elaborazione della Informazione in Pisa, das schon erwähnte NIST sowie die European Languages Resources Association (ELRA/ELDA).

Das Ziel besteht darin, Anfragen in einer beliebigen europäischen Sprache in vielsprachigen Dokumentmengen zu beantworten. Bei der Bewertung tritt zum Aspekt der eigentlichen Retrieval-Leistung der Übertragungsansatz hinzu. Die Evaluationsumgebung für mehrsprachiges Information Retrieval erstreckt sich auf Dokumente in Englisch, Französisch, Italienisch, Spanisch, Niederländisch und Deutsch. Inoffiziell sind auch die Sprachen Japanisch, Russisch, Finnisch, Griechisch, Schwedisch, Chinesisch und Thai dabei. Hier müssen die Teilnehmer die Relevanzbewertung allerdings selbst vornehmen.

Im Jahr 2001 haben sich bereits 35 Gruppen aus Industrie und Wissenschaft mit ihren Retrievalsystemen an CLEF beteiligt: ein durchschlagender Erfolg, nachdem 2000 nur 20 Gruppen beteiligt waren. Die Ergebnisse von 2001 wurden Anfang September in Darmstadt auf einem Workshop im Rahmen der European Conference on Digital Libraries (ECDL) präsentiert.

Mehrsprachige Aufgaben

Die CLEF-Partner schufen ein mehrsprachiges Textkorpus, das jeweils den kompletten Jahrgang 1994 der Schweizer Depeschen Agentur in drei Sprachen, der spanischen Nachrichtenagentur Agencia EFE, Los Angeles Times, Le Monde, NRC Handelsblad, Algemeen Dagblad, La Stampa, Frankfurter Rundschau und Spiegel umfasst.

Jedes Jahr formulieren die Institute Aufgaben in ihrer Landessprache, die sich auf Ereignisse aus dem Jahr 1994 beziehen und damit aus dieser Datenmenge beantworten lassen. Die Aufgaben waren international (z.B. Schutz bestimmter Tierarten), national (z.B neue Architektur in Frankreich) und regional (z.B. Entlassungen bei der Berner Oberlandbahn) ausgerichtet. Dabei ist zu prüfen, ob die Daten Dokumente zu den Themen enthalten und diese Anfrage nicht schon einmal gestellt wurde. Federführend ist hier die Gruppe an der Universität Hildesheim unter der Leitung von Prof. Dr. Christa Womser-Hacker.

Insgesamt waren 40 englische, französische, italienische und deutsche Topics zu bearbeiten. Viele Problemstellungen sind sehr schwierig zu übersetzen, da kulturelle Eigenheiten bestehen. Suchsysteme können etwa mit dem Schweizer-Deutsch Probleme haben, wenn es etwa um Abschiebung von Flüchtlingen geht. In der Schweiz heißt dieser Vorgang Ausschaffung.

Verfahren für Cross-Linguales Retrieval

Im Bereich multilinguales Retrieval konkurrieren verschiedene Ansätze. Manche Verfahren übersetzen die Anfragen automatisch in die Sprachen der Dokumente und suchen mit der übersetzten Anfrage wie beim einsprachigen Beispiel. Dabei kommen verschiedenste Übersetzungsdienste oder Wörterbücher zum Einsatz wie Babelfish, Promt-Reverso oder Seasite. Andere Verfahren übersetzen die Dokumente in die Sprache der Anfrage.

Erfolgreich sind auch lernende Verfahren, die ohne explizite automatische Übersetzung auf der Basis von Doppelkorpora arbeiten. Gute Korpora zum Lernen kommen beispielsweise aus der Schweiz. Dort werden Gerichtsurteile oder Nachrichtendienstmeldungen in alle Landessprachen übersetzt, so dass sichergestellt ist, dass die Texte das Gleiche behandeln. Andere Forscher extrahieren solche mehrsprachigen Dokumentmengen automatisch aus dem Internet, in dem viele Seiten internationaler Organisationen und Firmen in mehreren Sprachen vorliegen.

Daraus lernt das System, mit welchen anderen Begriffen ein Wort häufig gemeinsam vorkommt. Kommt eine Anfrage, so wird sie nicht Wort für Wort übersetzt, sondern in eine Menge von Wörtern umgeformt, die häufig in den übersetzten Dokumenten vorkamen.

Vom Menschen lernen

Diese lernfähigen Modelle benutzen die Wörter als Eigenschaften der Dokumente. Dabei spannen die Wörter einen vieldimensionalen Vektorraum auf, in dem die Dokumente Punkte bilden. Bei übersetzten Dokumenten entsteht in jeder Sprache ein völlig anderer Vektorraum. Da die Bedeutung des Dokuments aber erhalten bleibt, dienen diese jetzt als Fixpunkt. Damit tauschen Dokumente und Wörter ihre Rolle.

Die Dokumente werden zu den Achsen eines neuen Vektorraums und die Wörter werden je nach ihrer Verteilung auf die Dokumente als Punkte darin eingetragen. Damit besteht das Modell nun aus einem sprachunabhängigen Raum, in dem Wörter mehrerer Sprachen gleichberechtigt nebeneinander stehen. Haben zwei Wörter auch über Sprachgrenzen hinweg eine ähnliche Bedeutung, kommen sie also oft gemeinsam in Dokumenten vor, liegen sie nahe beieinander.

In der Praxis wird ein Wort aus einer Anfrage dann in eine Menge von ähnlichen Wörtern aus einer anderen Sprache umgewandelt, indem einfach die nächsten Nachbarn im Vektorraum gesucht werden, die zu dieser Sprache gehören. Die Hauptarbeit besteht dabei in der Optimierung der Parameter. Mögliche Fragen: Wie nahe müssen die Dokumente liegen, um ähnlich zu sein? Wie häufig müssen Begriffe gemeinsam vorkommen?

Für die eigentliche Suche der Wörter kommen je nach Ansatz Standard-Suchverfahren aus dem Information Retrieval zum Einsatz wie etwa PAT Arrays oder Hashing, die dazu dienen, einen Eintrag in einer organisierten Datenstruktur schnell zu finden.

Unterschiedlich sind die Anforderungen an die Hardware. Die meisten Gruppen benutzen Sun-Server mit stark variierender Ausstattung. So finden sich Systeme mit 1 GByte RAM und 20 GByte großer Festplatte, während andere bis zu 8 GByte RAM und 200 GByte Festplattenspeicher besitzen. Bei TREC kommen bereits kleinere Server-Cluster zum Einsatz, da dort inzwischen sehr viele Trainingsdaten aus früheren Durchgängen bereitstehen.

Fazit

Die zur Zeit entstehenden Digitalen Bibliotheken werden in Zukunft mehrsprachig sein. Ein großes Problem bleibt dabei die sprachübergreifende Suche. Nach einer Studie von Bertelsmann interessieren sich 22 Prozent der Internet-Benutzer sogar für Dokumente in einer ihnen unbekannten Fremdsprache. In Deutschland wird das Thema Cross Linguales Retrieval zunehmend marktrelevant, da durch die zunehmende Einwanderung die Kenntnisse von anderen Sprachen als Deutsch innerhalb der Bevölkerung zunehmen werden.

Meist finden die existierenden Systeme nur einen Bruchteil der relevanten Informationen. Die dadurch entstehenden Kosten unterschätzt man häufig. Zur Verbesserung der Verfahren sind zunächst standardisierte Tests und vergleichende Evaluierungen nötig. Das Cross Language Evaluation Forum (CLEF) bietet einen Einstieg in diese Problematik und hat die Situation bereits entscheidend verbessert. Durch die künftige Integration weiterer Sprachen wird die Zahl der CLEF-Teilnehmer steigen.

In Zukunft geht es darum, neue Arten der Evaluierung zu entwickeln, die besser auf die Problematik der sprachübergreifenden Suche abgestimmt sind. Wichtig sind auch globale Evaluierungen, die über reine Effektivität hinausgehen und auch die notwendigen Hardware-Ressourcen mit bewerten. Vor allem müssen aber der Benutzer und seine Anforderungen stärker in der Mittelpunkt rücken. (jma)

Informationen über den Autor:

Dr. Thomas Mandl promovierte in Informationswissenschaft an der Universität Hildesheim und lehrt dort im Studiengang Internationales Informationsmanagement. Seine Forschungsschwerpunkte liegen in den Bereichen Information Retrieval, Soft Computing und Mensch-Maschine-Interaktion.