Opentext & Webcrawler

Die Anforderungen an Suchwerkzeuge sind so verschieden wie die Anwender selbst. Wer nicht von unzähligen Treffern überrascht werden will, zu jedem Link ein kurzes Summary benötigt oder gerne bei Städtenamen einen Verweis auf Wetterbrericht und Straßenkarte hätte, der sollte sich diese Folge genauer ansehen.

Der Index von Opentext http://saturn.opentext.net gehört zu den Größten im Internet. Etwa 250.000 Anfragen werden täglich an diese Suchmaschine gerichtet. Alle aufgenommenen Seiten können als Volltextsuche recherchiert werden. Die Rangfolge der Ergebnisse einer Recherche bestimmt die Häufigkeit, mit der der Suchbegriff vorkommt, sowie seine Position im Dokument. Groß- beziehungsweise Kleinschreibung spielt bei der Eingabe keine Rolle. Opentext gestattet keine Wortstammsuche. Bei der Suche sind daher übliche Endungsvarianten, etwa Pluralformen, als OR-Verknüpfung zu berücksichtigen.

Opentext unterscheidet zwischen einer einfachen Suche (Simple Search) und einer erweiterten Suche (Power Search). Für beide Formen stehen eigene Eingabemasken zur Verfügung. In der einfachen Suche ist lediglich eine Freitextsuche möglich. Die Suche kann als AND-Verknüpfung (Search for these words) beziehungsweise als NEBENEINANDER-Suche von Suchbegriffen (Search for this phrase) durchgeführt werden. Opentext sucht dabei exakt nach der eingegebenen Zeichenfolge.

Neben der einfachen Suche bietet Opentext mit "Power Search" auch erweiterte Suchmöglichkeiten. Die Eingabemaske gestattet hier, die Verknüpfung von Suchbegriffen präziser zu gestalten. Neben Operatoren wie AND, OR oder BUT NOT bieten vor allem die Näherungsoperatoren interessante Suchvarianten. So bewirkt beispielsweise die Eingabe von online followed by marketing, daß der Begriff marketing innerhalb von 80 Zeichen nach dem Suchbegriff online vorkommen darf. Ein Suchschritt mit mehreren Operatoren wird in der Reihenfolge abgearbeitet, in der die Operatoren in der Eingabemaske erscheinen. Soll beispielsweise die logische Verknüpfung online and (market or marketing) abgearbeitet werden, muß die Eintragung in die Eingabemaske in umgekehrter Reihenfolge erfolgen: market or marketing and online.

Die für eine Suche verknüpften Begriffe können in verschiedenen Bereichen eines HTML-Dokumentes gesucht werden. In einer sogenannten Within-Spalte kann der Benutzer unter anderem wählen zwischen ANYWHERE, TITLE, FIRST HEADING oder URL (siehe Kasten). Eine Besonderheit bietet die Option SUMMARY. Hier sucht Opentext in der Zusammenfassung, die von der Suchmaschine den einzelnen Seiten zugeordnet wurde; bestehend aus dem Titel der Seite, seine erste Überschrift sowie aus dem Text maschinell extrahierte bedeutsame Textelemente.

Opentext bietet nur ein Anzeigeformat. Dem Anzeigeformat für ein Trefferdokument wird normalerweise auch ein Link zugeordnet, mit dem der textliche Kontext, in dem die Suchbegriffe in einem Dokument vorkommen, dargestellt werden: "See matches on the pages" sowie ein weiterer Link, der eine Suche nach ähnlichen Dokumente gestattet (Find similar pages). Beide sind momentan aus technischen Gründen nicht verfügbar.

Liste der "Top 100"

Der Webcrawler (http://webcrawler.com ist bereits seit Frühjahr 1994 verfügbar und gehört damit zu den ältesten Internet-Suchmaschinen. Vom Umfang der Dokumente her ist der Webcrawler eher ein kleineres System. Webcrawler weist nur WWW-Dokumente nach und ermöglicht eine Volltextrecherche. Neben der schlagwortorientierten Suche bietet der Webcrawler auch eine themenorientierte Suche (Webcrawler select categories). Die in den Kategorien und ihren untergeordneten Ebenen aufgeführten Websites sind vom Webcrawler einer Bewertung (review) unterzogen. Von einer Webcrawler-Seite mit einer referierten Website aus kann über den "spidey search button" eine Ähnlichkeitssuche im WWW veranlaßt werden. An besonderen Features bietet der Webcrawler unter anderem eine Top-100-Liste der populärsten Internet-Sites. Die Reihenfolge der Trefferdokumente bestimmt eine Relevanzrate (relevance score). Dabei werden Dokumente um so höher bewertet,

je mehr die eingegebenen Suchbegriffe in einem Dokument enthalten sind, je häufiger die Suchbegriffe im Dokument vorkommen und je seltener das im Trefferdokument enthaltene Suchwort insgesamt in der Datenbank vorkommt.

Bei der Eingabe ist Groß- beziehungsweise Kleinschreibung ohne Auswirkungen auf das Ergebnis. Allerdings können allgemeine Wörter, etwa WWW oder web nicht gesucht werden. Eine Wortstammsuche ist im Webcrawler nicht möglich. Standardmäßig werden die in der Suchmaske eingegebenen Begriffe als ANDOR-Verknüpfung interpretiert. Darüber hinaus kann für die Eingabe der Suchbegriffe auch die traditionelle Boolesche Algebra verwandt werden (AND- oder NOT-Verknüpfung). Hervorzuheben ist, daß Webcrawler unter allen Suchmaschinen die ausgefeiltesten Möglichkeiten einer Suche mit Näherungsoperatoren bietet. Sollen beispielsweise die Begriffe in der Reihenfolge der Eingabe vorkommen, kann online adj marketing oder online marketing eingegeben werden. Bei der Eingabe online near marketing wäre die Reihenfolge der Begriffe beliebig. Aber auch eine Suche mit einer definierten Zahl von Zwischenworten ist möglich. Die Eingabe online near/25 marketing beschränkt beispielsweise die Zahl der Zwischenworte auf maximal 25. Werden mehrere Boolesche Operatoren in einem Suchschritt verwendet, so läßt sich durch Klammersetzung die Reihenfolge der Abarbeitung festlegen. Als Besonderheit bietet der Webcrawler bei Suchanfragen, in denen auch der Name einer US-Stadt enthalten ist, eine interaktive Karte dieser Stadt als eines der Suchergebnisse an.

Bewertung der Trefferqualität

Die Anzeige von Suchergebnissen wird im Auswahlfenster in der Suchmaske festgelegt. In gleicher Weise kann die Zahl der anzuzeigenden Trefferdokumente zwischen 10 und 100 gewählt werden. Die Treffer werden mit einem Symbol versehen, dessen Struktur eine Wertung zwischen 1 (niedrige Relevanz) und 5 (höchste Relevanz) zuläßt. Die Anzeige kann als Title-Anzeige beziehungsweise Summary-Anzeige erfolgen. Im Gegensatz zur Title-Anzeige liefert die Summary-Anzeige über den Titel und eine maschinell generierte Zusammenfassung hinaus für jedes Dokument die URL sowie die Bewertung (score) der Qualität des Dokumentes bezogen auf die Anfrage. Innerhalb der Ergebnisanzeige läßt sich zwischen Title- und Summary-Anzeige hin und her wechseln.

In der nächsten Folge geht es weiter mit dem "World Widw Web Worm" (WWWW, http://www.cs.colorado.edu/home/mcbryan/wwww.html), einer Suchmaschine, die Professor Oliver McBryan am Department of Computer Science an der University of Colorado in Boulder entwickelt hat.

(gob)