Suchen im Sprachen-Dschungel

Bewertung von IR-Systemen

Da Wissen überwiegend in der Form von Texten in natürlichen Sprachen vorliegt, betont Information Retrieval nach wie vor die Suche in Textdatenbanken. Parallel werden aber auch Systeme für Bilder, Video oder Musik entwickelt. Das Ziel von IR-Systemen besteht in der Zufriedenheit der Benutzer. Diese wird erreicht, wenn die ausgewiesenen Dokumente helfen, Probleme zu lösen.

Die Auswirkungen verschiedener Modelle, ihrer Parameter und ihrer Kombination auf dieses Ergebnis lassen sich a priori nicht vorhersagen. Deshalb nimmt die Evaluierung einen zentralen Platz in der IR-Forschung ein. Es geht dabei um folgende Fragestellung: "Wie gut ist das System darin, für den Benutzer relevantes Material aufzufinden, ohne ihn mit Ballast zu überschütten?" Sie wird anhand unterschiedlicher statistischer Größen gemessen. Am wichtigsten sind hier recall (bewertet den Anteil der gefundenen Dokumente aus allen relevanten Dokumenten) und precision (bewertet den Anteil relevanter Dokumente im Suchresultat). Der folgende Recall-Precision-Graph stellt die Genauigkeit des Suchergebnisses im Verhältnis zur relativen Anzahl der gefundenen Dokumente dar.

Die Qualität eines Systems lässt sich nicht absolut bewerten, entscheidendwichtig ist vielmehr der Standpunkt des Benutzers. Für einen Benutzer, der möglichst viele der relevanten Dokumente in seiner Antwortmenge erwartet, ist der Recall wichtig.

Tatsächlich betrachten Sucher im Internet meist nur die ersten zehn angebotenen Seiten. Für solche Nutzer kommt es eher auf die Precision an; unter den ersten zehn Dokumenten sollen sich möglichst viele relevante befinden.