Suchen im Sprachen-Dschungel

Text REtrieval Conference (TREC)

Seit 1989 läuft in den USA das inzwischen wichtigste Projekt zur Bewertung der Qualität von Information Retrieval Systemen. Die vom National Institute of Standards and Technology (NIST) jährlich durchgeführte Text Retrieval Conference (TREC) stellt eine Infrastruktur für die Evaluierung von Systemen mit Massendaten zur Verfügung.

Da die Forscher für ihre Tests verschiedenste Textkollektionen benutzten, waren Ergebnisse oft nicht vergleichbar. TREC hat diese Situation verbessert. Die TREC-Konferenzen bieten eine einheitliche Testumgebung (Dokument-Kollektion) und sind als gemeinsame Plattform zum Leistungsvergleich organisiert. Die Beiträge werden jährlich publiziert. Als Trainingsdaten dienen die Kollektionen der Vorjahre, die intellektuelle Relevanzurteile enthalten. Dabei stufen Experten die Ergebnisse als relevant oder irrelevant für die entsprechende Frage ein. Im nächsten Jahr stehen diese menschlichen Urteile den Systemen zur Verfügung.

Der wichtigste Bestandteil der TREC-Experimente ist das Ad-hoc Retrieval. Ausgangspunkt ist hier die Standardsituation im Information Retrieval: Ein Benutzer stellt eine Anfrage, die Ergebnisse aus einer großen Menge von Textdokumenten liefert. Daneben gibt es Routing-Aufgaben, die einem automatisiertem Filter entsprechen. Feststehende Routing-Aufgaben begegnen dabei einem steten Strom von Dokumenten, aus dem die relevanten gefiltert werden.

Die Veranstalter erstellen die Anfragen (im TREC-Jargon Topics) in drei Detaillierungsebenen. Neben Überschrift und Kurzbeschreibung in einem Satz gibt es eine so genannte Langbeschreibung. Die Teilnehmer entscheiden sich für eine Fassung und arbeiten damit. Inzwischen wurden die Ad-hoc-Experimente durch einen Webtrack ersetzt, der auf einer Momentaufnahme eines kleinen Teils des Internets basiert. Dabei werden auch reale Internet-Suchmaschinen mit traditionellen Retrieval-Systemen verglichen.