WWWW, Yahoo, Metacrawler & Savvy Search

14.10.1998
Für eine qualifizierte Informationssuche im Internet lohnt es sich, verschiedene Suchmaschinen parallel zu benutzen. In diesem Teil der Serie fallen zwei Werkzeuge aus der Reihe, da sie über keine eigene Datenbank verfügen, sondern mit ausgewählten Suchmaschinen arbeiten. Die Ergebnisse erhält der Benutzer in einer Gesamtübersicht.

Von: Ernst-Gerd vom Kolke

Der "World Wide Web Worm" (WWWW, http://wwww.cs.colorado.edu/wwww, kürzlich umbenannt in "Goto.com") zählt zu den Suchmaschinen, die vergleichsweise wenige Web-Dokumente indizieren. WWWW bietet keine Volltextrecherche an, sucht aber in vier Dokumentbereichen:

Text der Hyperlinks (URL references); Adresse des Hyperlinks (URL addresses); Titel der HTML-Dokumente (document titles); Adresse der WWW-Dokumente (document addresses).

Leider macht der World Wide Web Worm keine Angaben dazu, nach welchen Kriterien die Reihenfolge der Dokumentanzeige einer Treffermenge erfolgt. Die Suchbegriffe können in Groß- oder Kleinschreibung eingegeben werden, da das System "case insensitve" sucht. Andere als alphanumerische Zeichen (+, -, _ et cetera) werden als Leerstellen interpretiert. Wörter mit einem oder zwei Buchstaben lassen sich nicht suchen, ebenso verhält es sich mit drei- oder vierbuchstabigen Wörtern mit allgemeiner Bedeutung, wie beispielsweise the oder http. Webcrawler gestattet keine Wortstammsuche.

Standardmäßig wird eine AND-Verknüpfung (match all terms) durchgeführt. Alternativ läßt sich auch eine OR-Verknüpfung (match any terms) durchführen, die aber auch Dokumente einschließt, die alle Suchbegriffe enthalten (ANDOR-Verknüpfung). Die Suche wird als Standard im Text der Hyperlinks (URL references) durchgeführt. Darüber hinaus kann der Benutzer die Zahl der zu findenden Treffer festlegen (1, 5, 50, 500, 5000 matches). Ansonsten stehen keine unterschiedlichen Anzeigeformate zur Auswahl.

Gut für Wirtschaftsinformationen

Yahoo (http://www.yahoo.com oder http://www.yahoo.de ) zählt wie Lycos zu den bekanntesten Internet-Suchmaschinen. Das Suchsystem ist in erster Linie thematisch strukturiert und hat sich seinen Ruf unter anderem durch seine Wirtschaftsinformationen erworben. Yahoo weist weitgehend nur sogenannte Web-Sites und keine einzelnen Web-Seiten nach.1

Neben der thematischen Suche gibt es auch eine Schlagwortsuche. Dabei werden lediglich die von Yahoo gemachten Einträge zu einer Web-Site (Titel, Kurzbeschreibung der Seite) durchsucht. Da man sich offensichtlich dieser "Schwäche" bewußt ist, wird am Ende der Ergebnisseite ein Link zu Altavista angeboten, in der die gleiche Suche in den einzelnen indexierten Seiten des World Wide Web durchgeführt wird. Groß- oder Kleinschreibung spielt bei der Suche keine Rolle. Yahoo führt automatisch eine unbegrenzte Trunkierung (rechts und links) der eingegebenen Zeichenfolge durch. Ferner kann mittels des Trunkierungszeichens (*) eine Wortstammsuche extra bestimmt werden. Yahoo stellt eine einfache und eine erweiterte Eingabemaske (option) zur Verfügung. Alternativ kann der Anwender auch in den USENET-Newsgruppen beziehungsweise in EMail-Adressen recherchieren. Die Reihenfolge der Trefferdokumente wird dadurch bestimmt, wie häufig Suchworte in Dokumenten vorkommen (Titel, Text oder URL) und ob sie in Kategorien auftreten, die in der Hierarchie höher stehen.

Suche mit ausgewählten Maschinen

Im Gegensatz zu den meisten Konkurrenzprodukten verfügt Metacrawler (http://www.metacrawler.com/) nicht über eine eigene Datenbank mit WWW-Dokumenten. Das Recherchetool leitet Suchbegriffe an ausgewählte Maschinen weiter (Altavista, Excite, Infoseek, Lycos, Webcrawler und Yahoo) und stellt die Einzelergebnisse in einer bewerteten Gesamtliste zusammen.

Ob Groß- oder Kleinschreibung eine Rolle spielen, hängt von der Suchmaschine ab, die die Anfrage erledigt. Um auf der sicheren Seite zu sein, empfiehlt sich die Kleinschreibung. Metacrawler läßt eine Wortstammsuche bei der Eingabe zu (Eingabe: online market*). Die Abarbeitung in den einzelnen Suchmaschinen erfolgt allerdings in Abhängigkeit der jeweiligen Trunkierungsmöglichkeiten. Metacrawler bietet drei Suchvarianten an (siehe Kasten). Dabei werden standardmäßig alle Quellen des WWW (everywhere) durchforstet. Die Standardeinstellungen können über den Link Customize angepaßt werden. Default interface bestimmt das Format der Startseite. Während die Power-Ansicht alle Grafiken enthält, ist die Einstellung Low bandwidth weniger grafikintensiv. Durch Anklicken des Kästchens sticky lassen sich die vorgenommenen Änderungen speichern, da der Metacrawler ein sogenanntes Cookie auf dem eigenen PC hinterläßt, das beim Wiederaufruf "abgefragt" wird. Außerdem steht dem Anwender die Power Search zur Verfügung. Hier können ähnliche Einstellungen vorgenommen werden wie im Customize-Fenster. Die Einstellungen wirken aber nur solange, wie in der momentanen Session mit Power Search gearbeitet wird. Des weiteren lassen sich die in den Internet-Suchmaschinen üblichen Sonderzeichen zur Verknüpfung von Suchbegriffen verwenden (Hochkommata, Plus-Zeichen, Minus-Zeichen).

Auch Savvy Search (http://www.cs.colostate.edu/dreiling/smartform.html) kann nicht mit einer eigenen WWW-Datenbank aufwarten. Ausgewählte Suchmaschinen bearbeiten die einzelnen Anfragen und stellen die Einzelergebnisse in einer Gesamtliste zusammen. Die Suchmaschinen werden aus einem Pool von zur Zeit zwölf Systemen ausgewählt, wobei Anfragen immer "nur" an drei Suchmaschinen gesandt werden. Die Auswahl kann jederzeit wechseln und erfolgt

nach der Leistungsstärke der jeweiligen Suchmaschine, aufgrund von Informationen über vergangene Recherchen und ihre Ergebnisse zu einem ähnlich gelagerten Thema, nach den momentanen Antwortzeiten der jeweiligen Systeme.

Langsame Suchmaschinen erhalten somit eine geringere Rangfolge. Der "search plan" am Ende der Trefferanzeige zeigt die der Recherche zugrundegelegte Rangfolge der in Frage kommenden Suchsysteme sowie im ersten Block die bereits durchsuchten Maschinen. Standardmäßig werden die Trefferdokumente getrennt nach Suchmaschinen angezeigt. Entsprechend gilt für die Reihenfolge der Trefferdokumente einer Suchmaschine das Bewertungsschema des jeweiligen Datenbankrechners. Savvy Search gestattet aber auch eine Integration der Ergebnisse in eine Gesamtliste. Die Savvy-Search-Oberfläche kann in 15 verschiedenen Sprachen dargestellt werden, unter anderem auch in Deutsch. Bei der Eingabe von Suchbegriffen spielt Groß- oder Kleinschreibung keine Rolle (case insensitive search). Kurze Wörter (zum Beispiel the, if, it, for) lassen sich nicht suchen und werden folglich ignoriert, eine Zahlensuche beziehungsweise eine Suche mit Symbolen ist in den meisten Fällen möglich. Suchbegriffe werden exakt gesucht, das heißt, Suchbegriffe werden weder für die Suche auf ihren Wortstamm mit dann beliebigen Endungen reduziert, noch werden die Wörter automatisch am Ende trunkiert. Savvy Search bietet nur drei Suchvarianten für eingegebene Begriffe an (siehe Kasten).

15 verschiedene Sprachen

Eine NOT-Verknüpfung von Suchbegriffen ist nicht möglich. Die mengelogische Abarbeitung einer Sucheingabe mit mehreren Suchbegriffen hängt von der jeweiligen Suchmaschine ab. Außerdem läßt sich die Zahl der Treffer pro Suchmaschine bestimmen (zwischen 10 und 50).

Mehrere Suchmaschinen benutzen lohnt sich

Faßt man die Untersuchung der Retrievalmöglichkeiten der verschiedenen international bedeutenden Suchmaschinen zusammen, so wird klar, daß ohne die Nutzung der angebotenen Verknüpfungs- und Trunkierungsmöglichkeiten sowie der feldbezogenen Suche eine qualifizierte Informationssuche im Internet deutlich erschwert wird, da man in der Regel mit zu vielen und oft unbrauchbaren Informationen überschwemmt wird.

Die vergleichende Übersicht über das Retrieval der Suchmaschinen macht aber auch deutlich, daß es hier doch gravierende Unterschiede gibt, die bei der Auswahl der Suchmaschinen berücksichtigt werden sollten.

Die Erfahrung im Umgang mit den Suchmaschinen zeigt überdies, daß man für eine Informationssuche im Internet gut daran tut, mehrere Suchmaschinen parallel zu benutzen. Zwar sind die in den einzelnen Systemen referierten WWW-Seiten zum Teil identisch, andererseits führt aber die Nutzung mehrerer Suchsysteme insgesamt sehr wohl zu einer Verbesserung der Rechercheergebnisse, da alle Suchmaschinen aufgrund des Umfangs der Informationen im World Wide Web stets nur einen Teil der verfügbaren Seiten nachweisen können. (cep)

Ernst-Gerd vom Kolke

ist Professor an der Fachhochschule Regensburg, Fachbereich Betriebswirtschaft

http://www.fh-regensburg.de/fachbereiche/fbbw/prof/kolke.html.