Galaxy & Exite

14.10.1998
Wer sich Detailkenntnisse einer Suchmaschine angeeignet hat, muß leider feststellen, daß sich andere "Sites" nicht nur in der Eingabe stark unterscheiden. Vor allem die Transparenz der Algorithmen, die der Suche und Sortierung zugrunde liegen, erschwert die Vergleichbarkeit der Suchergebnisse.

Von: Ernst-Gerd vom Kolke

Wie schon "Altavista" sucht auch "Einet Galaxy" (http://www.einet.net/search.html) standardmäßig in allen von der Suchmaschine aufgenommenen und als Volltext indexierten WWW-Dokumenten. Über die Zahl der aufgenommenen Dokumente macht das System keine Angaben. Neben den Dokumenten des World Wide Web läßt sich über die Eingabemaske auch zusätzlich suchen in

den sogenannten "Galaxy Pages", also Seiten, die von Galaxy selber erstellt sind und zum Auffinden von thematischen Verweisen (referencies) dienen, den "Gopher-Titeln", also den Titeleinträgen der Gopher-Menüs sowie den "Telnet-Ressourcen", also den Seiten des Hytelnet-Hypertext-Systems, das mehrere tausend Telnet-Sites und elektronische Bibliothekskataloge referiert.

Die Reihenfolge der Dokumentanzeige wird auch bei Galaxy durch einen Ranking-Algorithmus festgelegt. Allerdings macht das System keine Angaben dazu, welche Kriterien die Reihenfolge bestimmen.

Bei der Eingabe der Suchbegriffe spielt Groß- beziehungsweise Kleinschreibung keine Rolle. Suchbegriffe werden grundsätzlich für die Suche auf ihren Wortstamm zurückgeführt und mit unbegrenzter Trunkierung gesucht.

Suche mit dem Wortstamm

Die Eingabe des Suchbegriffs marketing führt somit zu einer Suche nach dem Wortstamm market und sucht auch nach markets, marketer et cetera. Diese automatische Suche mit einem Wortstamm läßt sich nicht abstellen. Daneben ist es aber auch möglich, mit dem Trunkierungszeichen "*" eine "gewollte" Wortstammsuche (zum Beispiel mark*) zu veranlassen.

Galaxy bietet in seiner Suchmaske standardmäßig eine Freitextsuche an. Gesuchte Begriffe müssen, damit ein Dokument ein Treffer ist, an irgendeiner Stelle im Dokument vorkommen (search all text). Dabei wird bei mehreren eingegebenen Begriffen standardmäßig eine sogenannte ANY-Verknüpfung (match any search terms) vorgenommen. Eine ANY-Verknüpfung entspricht einer ANDOR-Verknüpfung. Die ANY-Verknüpfung läßt sich aber auch in eine AND-Verknüpfung (match all search terms) umändern.

Überdies kann eine Sucheingabe auch unter direkter Verwendung der Booleschen Operatoren erfolgen. Werden mehrere Boolesche Operatoren in einem Suchschritt verwendet ( Eingabe: online and marketing or markets not strategic), so erfolgt die Abarbeitung der Operatoren von links nach rechts. Es ist nicht möglich, durch Klammersetzung festzulegen, in welcher Reihenfolge die Operatoren abgearbeitet werden. Die Abarbeitung von links nach rechts ist somit bereits bei der logischen Verknüpfung der Suchbegriffe zu berücksichtigen. Die beabsichtigte Logik online and (marketing or markets) not strategic erfordert also beispielsweise die Eingabe marketing or markets and online not strategic.

Neben der Freitextsuche bietet Einet Galaxy auch eine Suche in ausgewählten Dokumentteilen. Die Eistellung erfolgt dabei über die Eingabemaske. Die Suche kann dabei beschränkt werden auf

die Titel der WWW-Dokumente (search title text only) beziehungsweise den Text der Links, die in den WWW-Seiten gefunden werden (search link text only).

Synonyme eingeschlossen

Interessant bei dem zweiten System, das in dieser Ausgabe vorgestellt wird, ist eine Art "erweiterte Sichwortsuche". "Excite" (http://www.excite.com) verwendet dazu eine (Begriffs-)Konzept-Suche (Intelligent Concept Extracting - ICE). Zu einem eingegebenen Begriff werden auch Synonyme beziehungsweise andere gleichbedeutete Begriffsformulierungen gesucht. Die zugrundeliegende Vorgehensweise wird allerdings nicht näher transparent gemacht. Es steht aber zu vermuten, daß die Konzept-Suche nur in der englischen Sprache funktioniert. Die Excite-Suchmaschine gehört wie Altavista zu den größten Suchmaschinen und ermöglicht eine Volltextsuche im gesamten World-Wide-Web-Text.

Neben der Suche in den Web-Seiten kann auch in den Usenet-Newsgroups gesucht werden. Excite ermöglicht überdies eine Suche in den sogenannten "Web Site Reviews", einer qualifizierten Auswahl von WWW-Servern, die von einem Excite-Team einer Bewertung unterzogen wurden.

Neben diesen Suchwerkzeugen bietet Excite auch folgende Informationsdienste:

"Excite City.Net" stellt weltweite Reiseinformationen (Landkarten, Stadt-, Hotel-, Restaurantinformationen, Wetter, kulturelle Sehenswürdigkeiten et cetera) zur Verfügung. "Excite Live" gestattet es dem Nutzer, sich ein eigenes "Online-Magazin" mit für ihn relevanten Informationen (Börse, Sport, Wetter et cetera) zusammenzustellen. Die tägliche Aktualisierung durch Excite erfolgt kostenlos.

Die Reihenfolge der Trefferdokumente wird durch einen nicht näher definierten "Relevanzalgorithmus" bestimmt, der sich in einer prozentualen Bewertung niederschlägt (Confidence Ranking). Durch die logische Verknüpfung der Suchbegriffe läßt sich lediglich bestimmen, daß Dokumente, die alle gesuchten Begriffe enthalten, höher bewertet werden als Dokumente, in denen nur ein Teil der Suchbegriffe gefunden wurde. Die Reihenfolge der Anzeige kann optional mit Hilfe der Sort-by-Site-Funktion verändert werden (Kasten). Excite sortiert die Treffer dann nach den Web-Servern, auf denen die Seiten aufliegen. Sind in der "ursprünglichen" Treffermenge mehrere Dokumente einer Web-Site enthalten, werden diese Dokumente jetzt in der nach Sites geordneten Anzeige unter der Adresse der jeweiligen Web-Site "gebündelt".

Keine Trunkierung bei Excite

Bei der Eingabe der Suchbegriffe spielt auch bei Excite die Groß- beziehungsweise Kleinschreibung keine Rolle. Excite bietet bisher keine Möglichkeit der Trunkierung von Suchbegriffen. Eingegebene Begriffe behandelt das Programm als Freitextsuche. Das heißt, der oder die Suchbegriffe müssen bei einem Trefferdokument lediglich an mindestens einer Stelle vorkommen. Eine Spezifizierung der Suche auf bestimmte Bereiche eines Dokumentes (Titel, Text) ist nicht möglich. Die Suche in der Datenbank erfolgt standardmäßig als ANDOR-Verknüpfung. Dokumente, in denen alle Suchbegriffe vorkommen, werden höher bewertet als Dokumente, in denen die Suchbegriffe nur einzeln aufscheinen.

Enthält die Trefferliste "echte" Trefferdokumente, so läßt sich mittels einer Ähnlichkeitssuche (more like this) die Search Engine veranlassen, gleichartige Dokumente aus der Datenbank zu suchen. Der Algorithmus, auf dessen Basis diese Ähnlichkeitssuche stattfindet, wird allerdings nicht transparent. Neben dieser Standardsuche bietet Excite in der gleichen Eingabemaske auch eine fortgeschrittene Suche an. Diese sogenannten "Advanced - Search Features" erlauben dann den expliziten Einsatz der Booleschen Operatoren (AND, OR, NOT).

Dabei können die Operatoren auch durch Zeichen ersetzt werden. Ein Pluszeichen vor einem Suchbegriff bedeutet, daß dieser Begriff im Dokument vorkommen muß. Bei einer Kennzeichnung zweier Suchbegriffe mit einem Pluszeichen (+online +marketing) entspricht dies einer AND-Verknüpfung (online AND marketing). Eine Leerstelle zwischen zwei Suchbegriffen (online marketing) entspricht dagegen einer OR-Verknüpfung (online OR marketing). Ein Minuszeichen vor einem Suchbegriff bedeutet, daß dieser Begriff nicht im Dokument vorkommen darf, was einer NOT-Verknüpfung gleichkommt. Die Eingabe von online -marketing bringt also das gleiche Suchergebnis wie online NOT marketing

Fortsetzung mit Hotbot

Bei der Verwendung der Booleschen Operatoren ist unbedingt zu beachten, daß diese in Großbuchstaben einzugeben sind. Eine Klammersetzung zur Festlegung der Suchlogik ist möglich. Werden keine Klammern gesetzt, erfolgt die Abarbeitung in der Reihenfolge: NOT vor AND vor OR. In der nächsten Ausgabe geht es weiter mit der Suchmaschine "Hotbot" (http://www.hotbot.com), die seit Frühjahr 1996 im Internet verfügbar ist. (gob)

Ernst-Gerd vom Kolkeist Professor an der Fachhochschule Regensburg, Fachbereich Betriebswirtschaft.