Volltreffer erwünscht

Die Suche nach gezielten Informationen im Internet kann leicht zur Geduldsprobe werden - und das nicht nur aufgrund langsamer Verbindungen oder überlasteter Server. Voraussetzung für befriedigende Suchergebnisse ist vielmehr die genaue Kenntnis der eingesetzten Suchmaschine und ihrer Retrieval-Möglichkeiten.

Von: Ernst-Gerd vom Kolke

Wer im Internet nach Informationen sucht, sollte in der Regel bereits wissen, welche Institution beziehungsweise welcher Server für das gewünschte Thema in Frage kommt. Ein zentrales Verzeichnis aller Internet-Ressourcen, eine Art "Gelbe Seiten des Internet", gibt es nicht. Eine Möglichkeit der qualifizierten Informationssuche besteht darin, sogenannte Übersichtsseiten zu finden, die zu einem bestimmten Thema oder Fachgebiet einschlägige Internet-Ressourcen zusammenstellen. Das Problem verschiebt sich damit aber nur. Denn auch diese Übersichtsseiten müssen erst einmal gefunden werden. Ein zweiter Ansatzpunkt, die Online-Informationssuche effektiver zu gestalten, besteht darin, die im Internet mittlerweile sehr zahlreichen Suchsysteme zu nutzen. Dabei lassen sich drei Arten von Suchsystemen unterscheiden:

thematische Suche; Schlagwortsuche; geographisch ausgerichtete Suche.

Die thematische Suche gestattet, ähnlich einer Klassifikation, über einen thematischen Bereich in die Auswahl geeigneter WWW-Seiten einzusteigen. Per Mausklick auf ein gewünschtes Themengebiet greift der Suchende auf hierarchisch tiefer liegende Teilgebiete beziehungsweise auf einen WWW-Server zu, der fachspezifische Informationen enthält (Beispiel: Yahoo, http://www.yahoo.com oder http://www.yahoo.de). Was als Ansatz durchaus überzeugend ist, hat den gravierenden Nachteil, daß diese Systeme immer nur eine begrenzte Zahl an thematisch zusammengehörenden Web-Sites nachweisen. Überdies haben Nachweissysteme, die einen thematischen Überblick über die im Internet verfügbaren Ressourcen geben wollen, wie alle Klassifikationssysteme den Nachteil, daß die Zuordnung einer gesuchten Informationsquelle zu einem fachlichen Gliederungspunkt nicht immer auf Anhieb erkennbar ist. Der Nutzer muß sich zunächst einmal die Systematik der Klasssifikation erschließen.

Systeme, die geographisch ausgerichtet sind, weisen Web-Sites eines bestimmten Landes beziehungsweise einer bestimmten Region nach. Was ursprünglich unter touristischen Gesichtspunkten aufgebaut wurde (bekanntestes System dieser Art: Virtual Tourist, www.vtourist.com/webmap/), dient ganz allgemein zur Identifizierung von regional bezogenen Informationsressourcen.

Die zur Zeit umfassendsten Systeme sind die schlagwortorientierten Suchmaschinen, die zum Teil Dokumente in zweistelliger Millionenzahl nachweisen. Die Verknüpfung der Dokumente über Hyperlinks gestattet es dabei, den Umfang der in einer Datenbank zu speichernden Daten "begrenzt" zu halten, da nicht die Dokumente als solche, sondern für jedes Dokument nur definierte Suchbegriffe in einem Wörterbuch gespeichert werden müssen. Je nach Search Engine können dabei - vor allem, wenn ein Volltext-Retrieval in den nachgewiesenen WWW-Seiten möglich ist - Wörterbücher mit einem Umfang von bis zu zehn GByte entstehen, die bis zu einer Milliarde Suchbegriffe nachweisen. Die Recherche in diesen Suchmaschinen hat einerseits gewisse Ähnlichkeiten mit einer Suche in einer Online-Datenbank, andererseits ist das Retrieval bei weitem nicht so ausgefeilt wie selbst eine "einfache" Retrieval-Sprache eines Datenbank-Host.

Bei der Verwendung von Suchmaschinen sollte der Anwender wissen, wie die Reihenfolge der angezeigten Trefferdokumente bestimmt wird. Während in Online-Datenbanken die Aktualität der Dokumente, gemessen am Erscheinungsdatum, die Reihenfolge der Ausgabe bestimmt, ist dieses Kriterium im Internet wenig sinnvoll. Das Erstellungsdatum einer Web-Seite sagt nämlich nicht unbedingt etwas über die Aktualität der Informationen aus. Daher bestimmen alle Suchmaschinen die Reihenfolge der Trefferdokumente nach einem "Ranking Algorithm", der jedoch nicht immer transparent ist. Je nach Suchmaschine gehen unterschiedliche Faktoren in die Bestimmung der Reihenfolge ein.

So werden häufig Dokumente, in denen alle oder mehrere der gesuchten Begriffe vorkommen, höher "gerankt" als Dokumente, in denen nur einzelne Suchbegriffe vorkommen. Kommen die gesuchten Begriffe mehrfach, am Anfang eines Dokumentes oder gar im Titel vor, wird das Dokument ebenfalls höher bewertet.

Häufig wird das Ranking auch durch eine Kombination verschiedener Kriterien gebildet, ohne daß die Gewichtung der Kriterien nachvollziehbar ist. Als allgemeine Kritik an diesen Ranking-Algorithmen gilt folgendes:

Schematische Bewertungen, die auf mathematischen Algorithmen beruhen, führen bei allen Suchmaschinen zu deutlich unspezifischeren Ergebnismengen als eine Recherche in einer Online-Datenbank (formales Kriterium: Erscheinungsdatum). Sprachliche Besonderheiten (Synonyme, Homonyme) etwa bleiben bei der Bewertung unberücksichtigt.

Die Retrieval-Möglichkeiten in den Suchmaschinen lassen sich eher an den grundlegenden Recherchefunktionen in elektronischen Fachinformationssystemen (Online-/CD-ROM-Datenbanken, elektronische Bibliothekskataloge et cetera) messen. Hierzu gehören im wesentlichen drei Retrieval-Funktionen:

Verknüpfungsmöglichkeiten; Freitextsuche und feldbezogene Suche; Wortstammsuche (Trunkierungsmöglichkeiten).

In elektronischen Fachinformationssystemen lassen sich Suchbegriffe mit den booleschen Operatoren AND, OR, NOT verbinden. Leistungsfähige Systeme bieten überdies auch den Einsatz von Näherungsoperatoren, die es gestatten, den Abstand zwischen den zu suchenden Begriffen innerhalb eines Trefferdokumentes näher zu bestimmen. Diese Operatoren sind vor allem bei einer Volltextrecherche sehr hilfreich.

Auch bei Internet-Suchmaschinen stehen zunächst einmal die booleschen Operatoren zur Verfügung. Dabei nimmt allerdings die überwiegende Zahl der Suchmaschinen als Standard eine OR-Verknüpfung (häufig als ANY bezeichnet) der Suchbegriffe vor. Mengenlogisch beinhaltet eine OR-Verknüpfung auch eine AND-Verknüpfung, da auch die Dokumente zur Vereinigungsmenge gehören, in denen die mit OR verknüpften Begriffe gemeinsam vorkommen (Bild). Auf den ersten Blick erscheint eine OR-Verknüpfung als Standardsuche wenig sinnvoll. In Verbindung mit dem Bewertungsschema "Reihenfolge der Trefferdokumente" verändert sich das Bild. Soweit der Ranking-Algorithmus Dokumente, in denen die Suchbegriffe gemeinsam vorkommen, höher bewertet als Dokumente mit jeweils einzelnen Suchbegriffen, erscheint eine [AND]OR-Verknüpfung als Standardsuche plausibel. Sie liefert ein Maximum an in Frage kommenden Dokumenten. Allerdings führt diese Art der Verknüpfung in vielen Fällen zu Treffermengen, die deutlich zu hoch und dazu noch oft sehr ungenau sind. Neben der ANDOR-Verknüpfung bieten die meisten Suchmaschinen die Möglichkeit, explizit eine "reine" AND-Verknüpfung beziehungsweise eine NOT-Verknüpfung von Suchbegriffen vorzunehmen. Einzelne Suchmaschinen erlauben darüber hinaus auch eine ausschließende OR-Verknüpfung (XOR) - beispielsweise Opentext im "Advanced Search"-Modus (http://index.opentext.net/).

Neben den "normalen" booleschen Operatoren bietet eine Reihe von Suchsystemen auch die Möglichkeit, Näherungsoperatoren einzusetzen. Die Begriffe können dabei nebeneinander (häufig als Phrase-Suche bezeichnet) oder auch in einem zu bestimmenden Abstand zueinander, gemessen an der Zahl der Zwischenworte, gesucht werden. Gerade letztere Möglichkeit bewirkt häufig ein deutlich verbessertes Suchergebnis. Da eine Reihe von Suchmaschinen eine Volltextrecherche in den indexierten Dokumenten zuläßt, erfaßt eine normale AND-Verknüpfung zu viele Dokumente, bei denen die Suchbegriffe zwar irgendwo im Dokument vorkommen, ein inhaltlicher Kontext aber nicht oder nur sehr vage gegeben ist. Der Einsatz von Näherungsoperatoren ist somit eine Möglichkeit, die Treffermenge präziser zu fassen, und verdichtet so das Suchergebnis.

Zu den grundlegenden Recherchefunktionen zählt weiterhin die Möglichkeit, neben einer Freitextsuche, also einer Suche in allen zur Verfügung stehenden Bereichen eines Dokumentes, eine bereichs- oder feldbezogene Suche durchzuführen. Das heißt, die Suche beschränkt sich auf bestimmte Bereiche eines Dokumentes - beispielsweise Titel, Abstract, Schlagworte et cetera.

Suchmaschinen führen standardmäßig mit den eingegebenen Stichworten eine Freitextsuche nach Internet-Ressourcen durch. Die Suche findet in allen zur Verfügung stehenden Bereichen der Dokumente statt. Darüber hinaus gestatten einzelne Suchmaschinen (zum Beispiel Altavista oder Opentext) die Beschränkung der Suche auf bestimmte Bereiche (Felder) der HTML-Dokumente.

Die wichtigsten Varianten sind die Suche

im Dokumententitel, im Dokumententext, in der URL, im Link-Text (anchor) oder in der Link-Adresse.

Darüber hinaus gibt es bei einzelnen Suchmaschinen auch ausgefallene Varianten der feldbezogenen Suche, wie etwa eine Beschränkung auf im Dokument erwähnte Personennamen, in Web-Seiten verwendete Grafiken oder Java-Applets.

Eine dritte grundlegende Retrieval-Funktion betrifft die Eingabe von Suchbegriffen. So kann die Wortstammsuche (Trunkierung) wie auch die Klein- oder Großschreibung eines Begriffs zu unterschiedlichen Ergebnissen in elektronischen Fachinformationssystemen führen.

Die Eingabe von Suchbegriffen unterliegt bei einer Reihe von Suchmaschinen gewissen Beschränkungen. Werden beispielsweise bei der Eingabe eines Suchbegriffes nur Kleinbuchstaben benutzt, sucht das System standardmäßig auch alle klein und groß geschriebenen Varianten (Case Insensitive Match). Wörter mit einem Großbuchstaben werden üblicherweise genau entsprechend der Eingabe gesucht (Exact Case Match). Einige Suchmaschinen lassen Begriffe mit drei beziehungsweise vier Zeichen nicht zu. Überdies gibt es zum Teil Probleme, wenn Sonderzeichen (zum Beispiel das Plus-Zeichen) als Wortbestandteil vorkommen. Das hat zur Folge, daß bei einzelnen Suchmaschinen (beispielsweise Lycos, http://www-german.lycos.com beziehungsweise http://www.lycos.de) ein Begriff wie C++ überhaupt nicht gesucht werden kann.

Internet-Suchmaschinen bieten zum Teil die Möglichkeit, mit einem Wortstamm zu suchen. Die Trunkierungsmöglichkeiten sind dabei sehr unterschiedlich. Teilweise werden eingegebene Begriffe automatisch auf den Wortstamm reduziert und dann mit allen Endungsformen gesucht (so auch bei Lycos). Eine gezielte Trunkierung eines Wortes ist meist nur unbegrenzt, also mit allen denkbaren Endungen, möglich.

Recherchen in Internet-Suchmaschinen ergeben häufig sehr umfangreiche Suchergebnisse, deren Relevanz nur schwer einzuschätzen ist. Die oben aufgeführten grundlegenden Retrieval-Funktionen stellen in diesem Zusammenhang Möglichkeiten dar, die Recherchen zu präzisieren. Eine weitere Möglichkeit der "Präzisierung" liegt in den bei den Suchergebnissen üblicherweise mitangezeigten URLs. URLs weisen den Weg zum referierten Dokument über die Adresse des Servers, den Pfad, unter dem die Datei abgelegt ist, sowie den Dateinamen. Insbesondere aus den Angaben zur Adresse und zum Pfad kann man oft als weitere Informationen entnehmen, aus welchem Kontext die referierte Information stammt (Hochschule oder kommerzieller Bereich), und damit indirekt auf die Relevanz der Information schließen.

Eine gravierende Einschränkung der Recherche in den Internet-Suchmaschinen besteht darin, daß sich bis auf wenige Ausnahmen (zum Beispiel: Hotbot, http://www.hotbot.com) stets nur ein Suchschritt eingeben läßt - eine Verknüpfung mehrerer Suchschritte und damit eine Eingrenzung des Ergebnisses ist somit ausgeschlossen. Internet-Suchmaschinen bieten insgesamt bislang erst wenige Ansätze zu einer qualifizierten Recherche, wenn man übliche Standards einer Datenbankrecherche unterstellt.

Das Internet bietet für eine Suche mittlerweile eine Vielzahl von Suchmaschinen an. Unter diesen findet jedoch lediglich eine begrenzte Anzahl "Web-weit" Beachtung. In den folgenden Ausgaben werden die 15 wichtigsten Internet-Suchmaschinen - von "Altavista" bis "Yahoo" - ausführlich beschrieben und hinsichtlich ihrer Retrieval-Möglichkeiten analysiert. (gob)