Suchen im Sprachen-Dschungel

Die sprachübergreifende Suche im Internet stellt Suchmaschinen vor große Herausforderungen. Das Cross Language Evaluation Forum hat eine Methode für die Bewertung derartiger Suchverfahren entwickelt.

Wie kann man Internet-Suchmaschinen bewerten und vergleichen? Diese Frage beschäftigt Forscher aus dem Bereich Information Retrieval seit einigen Jahren. Mit der wachsenden Informationsflut wurde diese Aufgabe zunehmend schwieriger. Neben der großen Datenmenge bringt das Internet weitere Probleme. Die Flüchtigkeit führt zu toten Links, die Dokumente sind durch Links verbunden und die Texte sind hinsichtlich Qualität, Länge, Technik und Sprache sehr heterogen.

Besonders schwierig für Suchverfahren ist die Vielsprachigkeit der Dokumente. Die meisten Benutzer stellen ihre Anfrage in einer ihnen vertrauten Sprache, akzeptieren aber als Ergebnis auch Dokumente in anderen Sprachen, die sie etwa nur passiv verstehen.

Die Bewertung von derart sprachübergreifenden Suchverfahren ist sehr komplex. Seit drei Jahren hat die europaweite Initiative CLEF (Cross Language Evaluation Forum) dafür eine Methode und eine Infrastruktur entwickelt. Jedes Jahr stellt das CLEF eine Sammlung von Aufgaben in mehreren Sprachen bereit, an denen sich die Programmierer und Anbieter von Information Retrieval Systemen messen. Die Resultate werden auf einem Workshop präsentiert. So wird die Leistung der Systeme vergleichbar. Die hohen Teilnehmerzahlen vor allem in diesem Jahr zeigen, welche Bedeutung diesem Thema inzwischen zukommt.