Altavista

Seit Herbst 1995 verfügbar, zählt Altavista mittlerweile zu den größten Suchmaschinen im Internet. Besonders interessant ist der Zugriff auf alle Seiten des World Wide Web per Volltextsuche. Für optimale Ergebnisse ist jedoch die genaue Kenntnis der Suchmodi "Simple" und "Advanced Search" nötig.

Von: Ernst-Gerd vom Kolke

Altavista (http://altavista.digital.com) bietet unter der URL www.altavista.telia.com auch einen europäischen Mirrorserver mit einer Oberfläche in deutscher Sprache an. Die Auswahl der Dokumente, die von Altavista erfaßt werden, beginnt mit einigen tausend "bekannten" WWW-Seiten. Das System folgt dann den darin verzeichneten Hyperlinks, um weitere aufzunehmende Seiten zu identifizieren. Auf diesen Seiten wird wieder den Hyperlinks gefolgt, um weitere Seiten zu finden und so weiter. Neben den Seiten des World Wide Web läßt sich auch nach Artikeln der Usenet Newsgroups suchen.

Die Reihenfolge, in der Altavista Treffer einer Recherche anzeigt, ist durch einen sogenannten Scoring Algrithmus bestimmt. Dabei gilt:

Zunächst kommen Treffer, bei denen die gesuchten Begriffe im Titel beziehungsweise den ersten Worten des Dokumentes vorkommen. Dann folgen Treffer, bei denen die gesuchten Begriffe möglichst nah beieinander stehen. Schließlich zeigt die Suchmaschine Treffer, bei denen die Begriffe mehrfach im Dokument vorkommen.

Altavista definiert die eingegebenen Suchbegriffe als Buchstaben- oder Zahlenfolgen, die entweder durch einen Punkt, ein anderes alphanumerisches Zeichen (, / . - _ & % $ ) oder durch Leerstellen begrenzt sind. Entsprechend bestehen nachfolgende Beispiele aus zwei Wörtern: AT&T, 3.213, U.S., x-y. Im Falle einer "Lower Case Search", das heißt, die Eingabe des zu suchenden Begriffes erfolgt ausschließlich in Kleinbuchstaben, sucht Altavista die Begriffe in Klein- und Großschreibweise (Case Insensitive Match). Demgegenüber wird bei einer "Exact Case Match" (im Suchbegriff kommen Groß- und Kleinbuchstaben vor) das Wort genau so gesucht, wie es eingegeben wurde. In gleicher Weise führen auch Accents in einer Anfrage (zum Beispiel éléphant) zu einer exakten Suche nach der eingebenen Zeichenfolge.

Altavista ermöglicht eine sogenannte Wortstammsuche. Dazu wird das Zeichen * als Trunkierungszeichen verwendet. Der Wortstamm muß mindestens drei Buchstaben umfassen, und die Trunkierung ist automatisch auf maximal fünf nachfolgende Kleinbuchstaben (nicht Großbuchstaben oder Zahlen) begrenzt. Die Trunkierung kann dabei eine Innentrunkierung (mark*g) oder eine Rechtstrunkierung (market*) sein.

Für die Eingabe von Suchbegriffen unterscheidet Altavista zwischen einer einfachen Suche (Simple Search) und einer fortgeschrittenen Suche (Advanced Search). Für beide Suchformen stehen eigene Eingabemasken zur Verfügung. Die meisten Retrievalfunktionen sind jedoch bereits in der "Simple Search" einsetzbar. Die einfache Suche verknüpft Begriffe standardmäßig mit OR und sucht in allen Bereichen des Dokumentes (Titel, Text et cetera) - default ist also die Freitextsuche.

Eingabemaske für Einfache und Komfortsuche

Da eine OR-Verknüpfung auch die Schnittmenge der Dokumente erfaßt, in denen alle (oder mehrere) gesuchte Begriffe vorkommen, wird somit ein Maximum an in Frage kommenden Dokumenten erfaßt (sogenannte ANDOR-Verknüpfung). Der Algorithmus, der die Reihenfolge der Dokumente bei der Anzeige bestimmt, legt fest, daß zunächst die Dokumente, die in der Schnittmenge enthalten sind, angezeigt werden. Diese Suchergebnisse sind wiederum danach geordnet, wie viele der gesuchten Begriffe in dem Dokument enthalten sind. Will man eine Ergebnismenge haben, in der in jedem Dokument alle eingegebenen Suchbegriffe enthalten sind (AND-Verknüpfung), so muß den Begriffen ein Pluszeichen vorangestellt werden. (+online +marketing). Will man zusätzlich ein Wort ausschließen (NOT-Verknüpfung), so geschieht dies durch ein Minuszeichen (+online +marketing -company).

Neben diesen Standardoperatoren bietet das Retrieval von Altavista zur Präzisierung einer Suche auch die Möglichkeit, die zu suchenden Begriffe mit Näherungsoperatoren zu verknüpfen. Dabei lassen sich nebeneinanderstehende Begriffe suchen (Phrase Search). Voraussetzung für eine Suche mit Näherungsoperatoren ist, daß die zu suchenden Begriffe durch Leerstellen getrennt und von Hochkommata eingeschlossen sind ("online marketing"). Altavista läßt neben den Hochkommata noch mehrere Varianten (Bindestrich, Schrägstrich, Punkte zwischen den Suchbegriffen) zu, empfiehlt aber Hochkommata/Leerstellen. Die Reihenfolge der Begriffe ist dabei nicht beliebig; mit der Eingabe der Suchbegriffe ist die Abarbeitung der Suchanfrage festgelegt. Die Eingabe "online marketing" sucht also nicht gleichzeitig nach "marketing online".

Bei mehreren Operatoren in einer Suche erfolgt die Abarbeitung der Operatoren nach einer internen Festlegung: Näherungs- vor NOT-Operator; NOT- vor AND-Operator; AND- vor OR-Operator.

Die Reihenfolge der Abarbeitung durch das Setzen von Klammern zu bestimmen ist im Modus "Advanced Search", nicht aber in "Simple Search" möglich.

Altavista nimmt für sich in Anspruch, eine Volltextsuche zu ermöglichen, indem die Dokumente vollständig invertiert sind, das bedeutet, Wort für Wort ist in das Wörterbuch (Index) aufgenommen. Dabei werden unterschiedliche HTML-Dokumentbereiche - ähnlich den Feldern bei Online-Datenbanken - definiert. Bereichsweise lassen sich folglich durchsuchen:

Text; Titel; Uniform Resource Locator (URL); Host; Link; Anchor; Applet; Object; Image; Domain.

Für eine Beschränkung der Suche auf den Text des Dokumentes ist das Prefix text: erforderlich (text:online text:marketing). HTML-Dokumente enthalten üblicherweise einen Titel, der im Browser quasi als "Überschrift" in der Menüleiste angezeigt wird. Mit der Eingabe title:online title:marketing läßt sich also eine Suche auf den Titelbereich beschränken, um die Trefferauswahl zu präzisieren. Altavista ermöglicht auch eine spezielle Suche in dem Dokumentbereich, in dem die Adresse des Rechners, der Name der Seite und der Pfad, unter dem die Seite abgelegt wurde, steht (URL). Es ist dabei auch möglich, lediglich nach einer bestimmten Seite zu suchen (url:marketing.html). Eine weitere Präzisierung innerhalb der Web-Adresse ist die Suche nach der "reinen" Host-Adresse durch ein Voranstellen von host:.

Die Suche im Link-Bereich nennt Seiten, die mindestens einen Hyperlink auf eine Quelle haben. So zeigt Altavista mit link:www.fh-regensburg.de alle WWW-Seiten, die mindestens einen Link auf den Server der FH-Regensburg haben. Aber auch auf den Anchor, das heißt die farbig unterlegte Textstelle eines Links, kann man Altavista ansetzen (anchor:online marketing). Ebenso verhält es sich mit Java Applets (applet: marketing), ActiveX-Controls (object:marketing) oder Graphiken (image:marketing.gif). Außerdem kann es ganz hilfreich sein, die Suchergebisse durch die Abfrage des Domain-Bereichs zu präzisieren. Möglich ist sowohl die Eingabe von Länderkürzeln (domain:de) als auch dreistelliger Top-Level-Domains (domain:edu).

Eine Suche in bestimmten Dokumentbereichen ist auch bei Usenet-News-Artikeln möglich (siehe Kasten links). Natürlich lassen sich die logischen Verknüpfungen auch mit der Bereichssuche in WWW- oder Newsgroup-Dokumenten verbinden. Die Eingabe +title:online +title:marketing sucht also in Form einer AND-Verknüpfung nach Dokumenten, bei denen im Titel der Dokumente die Begriffe online und marketing vorkommen.

Neben der "Simple Search" verfügt Altavista auch über eine fortgeschrittene Suche mit einer eigenen Eingabemaske (Bild 2). Während die meisten Recherchemöglichkeiten von "Simple Search" auch für "Advanced Search" gelten, gibt es hier doch einige Besonderheiten. So müssen die Booleschen Operatoren (AND, OR, [AND]NOT) explizit eingegeben werden. Die Verwendung des NOT-Operators schreibt zwingend die Schreibweise AND NOT vor (online and marketing and not company). Bei der Phrase-Suche ist zu beachten, daß der Näherungsoperator NEAR wie im Beispiel online near marketing zu verwenden ist. Dabei ist allerdings zu beachten, daß NEAR bis zu zehn Worte zwischen Suchbegriffen zuläßt. Die Reihenfolge der Eingabe der Begriffe ist dabei beliebig - das heißt, die Eingabe online near marketing sucht auch nach marketing near online. Die Kombination des NEAR-Operators mit einer feldbezogenen Suche ist allerdings nicht möglich.

Die fortgeschrittene Suche gestattet das Setzen von Klammern, um bei mehreren Operatoren in einer Abfrage eine korrekte Reihenfolge bei der Abarbeitung der Operatoren zu gewährleisten. Werden keine Klammern gesetzt, gilt die bereits beschriebene Reihenfolge bei der Abarbeitung der Operatoren. Folglich ist Eingabe online or marketing and not company gleichwertig mit online or (marketing and not company) . Bei der Verwendung mehrerer Operatoren in einer Abfrage empfiehlt sich dringend die Verwendung von Klammern, um eine Abarbeitung in falscher Reihenfolge auszuschließen.

Ranking beeinflussen

Der zentrale Unterschied zwischen "Simple" und "Advanced Search" hängt jedoch mit dem Eingabefenster "Results Ranking Criteria" zusammen. In diesem Fenster eingegebene Begriffe bestimmen auf der Basis des "Scoring Algorithm" (Position des Begriffs, etwa am Anfang des Dokumentes; Häufigkeit, mit der der Begriff im Dokument vorkommt) die Reihenfolge der Ergebnisanzeige. Eine einfache Suche nach Dokumenten über Online-Marketing-Strategien (+online +marketing +title:strategy) führt zum gleichen Ergebnis wie die Eingabe in Bild 2.

Würde man die Eingabe der Begriffe im Feld "Results Ranking Criteria" weglassen und lediglich nach den im Feld "Selection Criteria" eingetragenen Begriffen suchen, wäre zwar das Ergebnis gleich, die Reihenfolge der Ergebnisse aber "ungeordnet", da keine expliziten Begriffe zur Anwendung des Rankingalgorithmus vorliegen. Eine Einfachsuche wird somit aus der Sicht von "Advanced Search" so abgearbeitet, als wären sämtliche Suchbegriffe auch gleichzeitig Ranking-Kriterien. Worin besteht aber dann der Vorteil einer fortgeschrittenen Suche? Zum einen verdichtet hier der NEAR-Operator - gerade bei einer Volltextrecherche - das Ergebnis gegenüber einer AND-Verknüpfung; die Eingrenzung ist aber nicht so "eng" wie bei einem Operator, bei dem die Begriffe direkt nebeneinander stehen müssen.

Weiterhin werden bei einer "Simple Search" sämtliche Suchbegriffe als Ranking-Kriterien herangezogen; "Advanced Search" bietet hier die Flexibilität, nur bestimmte Suchbegriffe für das Ranking zuzulassen. Darüber hinaus ermöglicht das Fenster "Ranking Criteria" zusätzliche Begriffe anzugeben, nach denen nicht unter "Selection Criteria" gesucht wird. Diese Begriffe wirken dann wie ein zweiter Filter, indem nur noch die Dokumente übrig bleiben, in denen neben den Suchbegriffen die Ranking-Kriterien zu finden sind - zusätzlich sind die Dokumente entsprechend dem Rankingalgorithmus geordnet. Logisch gesehen handelt es sich hier um eine weitere AND-Verknüpfung der eigentlichen Suchbegriffe mit den Ranking-Begriffen, die allerdings noch dem Scoring-Algorithmus unterliegt.

Schließlich kann "Advanced Search" auch noch ein Start- oder Endedatum der Veröffentlichung der WWW-Seiten berücksichtigen. Was andere große Internet-Suchmaschinen können, lesen Sie in den nächsten Ausgaben.

(gob)