Lycos & Magellan

14.10.1998
Mit Lycos und Magellan setzen wir unsere Serie über Internet-Suchwerkzeuge fort. Ein besonderes Merkmal hat dabei die letztere zu bieten: Ein Team von Mitarbeitern wählt per Hand Web-Seiten aus, auf denen Informationen liegen. Diese werden dann bei einer Recherche höher bewertet als andere WWW-Seiten.

Von: Ernst-Gerd vom Kolke

Lycos ist eines der bekanntesten Internet-Suchwerkzeuge. Seine Qualitäten hinsichtlich der Suchmöglichkeiten in den WWW-Seiten sind jedoch kritisch zu hinterfragen. So gehört Lycos nach - unwidersprochenen - Angaben des Konkurrenten Excite von der Zahl der indexierten Seiten her nicht gerade zu den großen "Search Engines". Der Hersteller gibt als Nachweis seiner Größe neben den URLs der referierten Seiten auch die Gesamtzahl der dort zu findenden URLs an, auch wenn diese lediglich als Links zu anderen Internetseiten vorhanden sind. Das ergibt aber - gemessen an der Zahl der URLs - ein deutlich verzerrtes Bild von der Größe der Suchmaschine. Überdies bietet Lycos keine Volltextsuche an. Für die einzelnen Seiten werden lediglich "Keywords" definiert, in denen die Recherche stattfindet.

Die Reihenfolge der Trefferdokumente (Score) wird durch eine Reihe von Faktoren bestimmt. Ein höherer Score ist dadurch bestimmt,

daß mehrere Suchbegriffe in einem Dokument enthalten sind, in welchem Abstand die Suchbegriffe zueinander stehen, ob die Suchbegriffe am Anfang eines Trefferdokumentes enthalten sind und ob einzelne oder mehrere Suchbegriffe mehrfach im Dokument auftauchen.

Lycos bietet neben dem amerikanischen Server (http://www-english.lycos.com) auch einen deutschsprachigen Spiegelserver an (http://www-german.lycos.com). Die Recherchemöglichkeiten sind im Prinzip identisch, auch wenn die Oberflächen unterschiedlich aussehen. Die Suche im deutschsprachigen Lycos-Server kann auf verschiedene Bereiche oder auf bestimmte Medien beschränkt werden:

alle Web-Seiten sucht im gesamten Internet, Seiten in D, A, CH sucht in den Web-Seiten aus Deutschland, Österreich und der Schweiz, .de-Seiten (D) beschränkt die Suche auf Web-Seiten aus Deutschland, .at-Seiten (A) reduziert die Suche auf Österreich, .ch-Seiten (CH) sucht nur Web-Seiten aus der Schweiz, Töne beziehungsweise Bilder findet Seiten, die diese Medien integriert haben.

Nach C++ läßt sich nicht suchen

Groß- oder Kleinschreibung spielt für die Suche keine Rolle. Allerdings können bestimmte Zeichen nicht verwandt werden wie das +-Zeichen. Auch müssen die Worte länger als drei Buchstaben sein. Eine Suche nach C++ geht somit ins Leere, ebenso wie eine Zeichenfolge, die mit einer Zahl beginnt (zum Beispiel 3M).

Standardmäßig werden die eingegebenen Ausdrücke auf ihren Wortstamm reduziert und dann mit allen Endungsvarianten gesucht. So hält eine Eingabe mit online marketing auch nach market, marketer et cetera Ausschau. Soll ein Terminus nur mit der eingegebenen Zeichenfolge gesucht werden, so muß er mit einem Punkt abgeschlossen werden (Eingabe: online. marketing). Überdies kann eine Trunkierung auch mittels $-Zeichen bewußt eingegeben werden (Eingabe: online market$).

Lycos verfügt über eine Standardmaske sowie eine erweiterte Suchmaske (Suche Spezial).

Treffermenge bestimmen

In der erweiterten Suchmaske können die Verknüpfungen aus der Standardsuche geändert werden. Über das Auswahlfenster lassen sich Einstellungen wie zwei Begriffen, drei Begriffen et cetera auswählen. Logisch gesehen sind diese Einstellungen eine AND-Verknüpfung verbunden mit einer OR-Verknüpfung. Dabei ist es auch möglich, daß bei einer Eingabe von drei Termini zwei dieser drei Begriffe in einem Dokument enthalten sind. Beispiel: Eine Suche nach Sarajevo, Sarayevo und Bosnia gestattet es, Dokumente zu finden, die Bosnia und Sarayevo oder Bosnia und Sarajevo enthalten. Die dritte Möglichkeit Sarayevo und Sarajevo ist nicht sehr sinnvoll, da beide Schreibweisen kaum in einem Dokument vorkommen. Logisch gesehen sucht die Einstellung zwei Begriffen somit nach Bosnia and (Sarajevo or Sarayevo).

Bei der Suche Spezial kann der Anwender aus verschiedenen Anzeigeformaten auswählen: in Kurzform, normal, im Detail). Die Zahl der auf einmal angezeigten Trefferdokumente läßt sich einstellen auf 10 (Standardeinstellung) bis 40 Ergebnisse pro Seite (maximale Einstellung). Schließlich kann die Gesamtzahl der Dokumente über die Treffergenauigkeit von irgendwie bis fast perfekt bestimmt werden. Fast perfekt beschränkt die Gesamtmenge an Treffern auf Bewertungen von 90 Prozent oder besser. Irgendwie erweitert dagegen die Treffermenge auf Dokumente mit einem Score von 10 Prozent oder besser.

Team wählt Server manuell aus

Als einer der wenigen Anbieter hat Magellan (http://www.mckinley.com) etwas Besonderes zu bieten: Die Suchmaschine weist nicht nur WWW-Seiten nach, die im Volltext recherchiert werden können. Darüber hinaus wählt ein Team von Magellan-Mitarbeitern händisch Internet-Server aus, auf denen Informationsressourcen liegen. Neben Web-Servern werden dabei auch FTP- und Gopher-Server erfaßt, wobei erstere den überwiegenden Anteil der Sites ausmachen. Diese Seiten werden nach inhaltlicher Tiefe (umfassend und aktuell), Einfachheit des Umgangs mit dem Server (gut organisiert und einfach zu navigieren) und Attraktivität fürs Internet (innovativ, optisch gut aufbereitet et cetera) bewertet. Für jede aufgenommene Seite wird ein Abstract (Review) über den Inhalt des Internet-Servers verfaßt. Die Reviews stellen den Textbestand dar, in dem Seiten als Treffer gefunden werden können.

Die Suche läßt sich auf das gesamte Web ausdehnen oder auf die von Magellan bewerteten Sites beziehungsweise auf sogenannte Green Light Sites beschränken. Green Light Sites sind "jugendfreie" Web-Server.

Die Reihenfolge der Trefferdokumente wird durch folgende Faktoren bestimmt:

von Magellan manuell ausgewählte Sites werden als Ergebnis einer Suche normalerweise als relevanter betrachtet als andere Informationsressourcen; Trefferdokumente mit mehreren Suchworten werden höher bewertet als Dokumente mit nur einem Suchbegriff; Termini im Titel führen zu einer höheren Beurteilung, als wenn sie an anderer Stelle im Text vorkommen; Dokumente, bei denen die Suchbegriffe in den Magellan-Reviews beziehungsweise Schlagwörtern (Keywords) vorkommen, haben höhere Priorität; Vorkommen der Suchbegriffe in einer URL; Häufigkeit, mit der die Suchbegriffe in Trefferdokumenten vorkommen.

Wie diese Kriterien sich zueinander verhalten, wird nicht transparent. Jedes Trefferdokument ist mit einem Link find similar versehen. Durch Anklicken dieses Links nimmt das System das ausgewählte Dokument als Basis für eine neue Suche nach ähnlichen Quellen.

Eine "reine" AND-Verknüpfung kann dadurch realisiert werden, daß den Suchbegriffen ein +-Zeichen vorangestellt wird. Es bewirkt, daß die so ausgezeichneten Begriffe zwingend in den Trefferdokumenten enthalten sein müssen (Eingabe: +online +marketing).

Bei einer NOT-Verknüpfung verwendet der Benutzer ein Minuszeichen (Eingabe: online marketing -strategic). Der Begriff darf dann in Trefferdokumenten nicht enthalten sein.

Darüber hinaus können auch die Booleschen Operatoren (hier: AND, OR, AND NOT) explizit eingesetzt werden, allerdings in Großbuchstaben. Mittels Klammersetzung läßt sich bei der Eingabe mehrerer Boolescher Operatoren in einem Suchschritt die Reihenfolge explizit festlegen.

Der nächste Teil dieser Serie behandelt die Suchmaschinen Opentext und Webcrawler im Detail. (cep)

Ernst-Gerd vom Kolke

ist Professor an der Fachhochschule Regensburg, Fachbereich Betriebswirtschaft.