Mit dem Datenwürfel recherchieren

10.11.1999
Traditionelle Suchmaschinen im Internet bringen nur unbefriedigende Ergebnisse, da die Trefferquote für einen Begriff meist sehr hoch und dadurch vage ist. Für mehr Genauigkeit durch Kontextinformationen sorgt das Recherche-Tool "Scout Master", weil es auf der multidimensionalen Datenbank "Caché" aufbaut.

Von: Frank-Michael Schlede

Die Frage, ob der Bedarf für noch eine Suchmaschine im Internet da war, beantwortet Alfred Fraas, Geschäftsführer der Firma Fraas Software Engineering, positiv: "Gerade die Vielzahl der Suchmaschinen im WWW zeigt deutlich, wie eingeschränkt die Möglichkeiten dieser Lösungen in der Regel sind: Sie tragen ihren Namen durchaus zurecht (mit ihrer Hilfe muß man noch mehr suchen)." Nicht nur im Internet, sondern auch in großen Firmennetzen brauchen die Anwender ein Tool, mit dessen Hilfe es möglich ist, ein Dokument oder eine URL (Universal Request Locator) schnell und genau zu lokalisieren.

Der Firmenchef ist davon überzeugt, daß "Scout Master", die Lösung aus seinem Hause, diesen Anforderungen genügt.

Das Produkt der Softwarefirma aus Wolfratshausen in Oberbayern ist ein Werkzeug, das Fraas lieber als Recherche-Tool denn als Suchmaschine bezeichnet.

Es basiert auf der postrelationalen Datenbank "Caché" von Intersystems und wird nach seiner Einschätzung dazu beitragen, den Informationsüberfluß im Internet zu bekämpfen.

Wer ein Dokument oder eine Information im weltweiten Netz sucht und eine der gängigen Suchmaschinen mit einer Anfrage losschickt, bekommt eine Flut von Treffern zurück. Selbst wenn der Suchbegriff weitgehend eingegrenzt wurde, ist die Anzahl der Seiten, die als Ergebnis geliefert werden, zu hoch. Oftmals kann der Suchende nicht einmal feststellen, warum gerade diese Seite ausgewählt wurde.

Diese Probleme kennt man mittlerweile nicht nur aus dem weltumspannenden Internet, sondern sie treten ebenso in lokalen Netzwerken auf. Diese Erfahrung machten die Entwickler von Fraas immer wieder bei Kunden: "Ganz gleich, ob es sich um eine Anwaltskanzlei mit fünf Rechnern im Netz oder eine große Behörde handelte, alle standen vor dem Problem, das gewünschte Dokument, den entsprechenden Vorgang ohne zusätzlichen Organisationsaufwand wie bei Archivierungssystemen möglichst schnell und zuverlässig wiederzufinden.". Selbst auf den häufig mehr als zehn GByte großen Festplatten einzelner Server hätten die Anwender häufig Probleme, schnell an die gewünschten Unterlagen zu kommen, weiß Fraas.

Für den Anfang Client/Server

Diese Anforderungen veranlaßten die Entwickler zunächst, die Dokumente der Kunden auf der Basis eines Index zu verwalten. Allerdings stiegen Datenmengen und Bedürfnisse der Anwender so schnell, daß bald die erste Version des Recherchewerkzeugs entwickelt wurde. Es war zunächst eine reine Client/Server-Version, nur für Anwendungen in lokalen Netzen konzipiert. In Zusammenarbeit mit Intersystems, deren Datenbank Caché die Grundlage von Scout Master darstellt, entstand die Idee, die Recherchefähigkeiten der Software auch für das WWW nutzbar zu machen.

Die Lösung wurde komplett unter Caché entwickelt und baut auf den postrelationalen Fähigkeiten des Intersystems-Produkts auf. Faktoren für den Erfolg des Werkzeugs sieht Fraas hauptsächlich im multidimensionalen Ansatz der Datenbank, denn laut seiner Aussage ist das der Grund für den Geschwindigkeitsvorteil bei den Suchoperationen.

Werden die Daten in den konventionellen Tabellen einer relationalen Datenbank abgelegt, so müssen sie auf diese flachen Strukturen abgebildet werden. Möchte man beispielsweise bei einer komplexen Suchanfrage mit logischen "und"- beziehungsweise "oder"-Bedingungen arbeiten, so ist der Zugriff auf mehrere Tabellen nötig. Die Ergebnisse müssen dann in einer zeitaufwendigen "Join"-Prozedur zusammengefaßt werden. In multidimensionale Strukturen sind die Daten eher so abgebildet, wie sie in der realen Welt vorkommen, nämlich mehrdimensional. Die Informationen werden in einem "Datenwürfel" abgespeichert, der beliebig viele Dimensionen haben kann. Dadurch lassen sich die Informationen direkt in der Form ihrer Aufgabenstellung im Datenmodell darstellen. Das bedeutet, alles, was zusammengehört, wird auch zusammen abgespeichert. Damit ist auch der Zugriff darauf schneller.

Durch Verknüpfung genauer

Die Software unterstützt eine besondere Art der Recherche: Für jeden Suchbegriff erhält der Anwender als Ergebnis der sogenannten Schnellsuche neben dem Titel des gefundenen Dokuments immer die Fundstelle des Begriffs im Dokument angezeigt (Bild). Der Suchende kann sich also am Kontext orientieren, um das Richtige zu finden. Eine weitere Eingrenzung der Treffer ergibt sich aus der Möglichkeit, eine große Anzahl von logischen Kombinationen mit bis zu neunmalneun Verknüpfungen zu spezifizieren. Das heißt, die Suche gestaltet sich genauer, denn neun Begriffe können mit jeweils neun verschiedenen Kriterien verknüpft werden. Anders als in sonstigen Suchmaschinen gestaltet sich die Recherche direkt nach Zahlen der Form "780kg", die dann in alphabetischer Reihenfolge "780km, 780mm" fortgesetzt wird.

Das Tool steht im Moment unter www.scoutmaster.de zur Verfügung, laut Fraas die beste Werbung für das Produkt: "Wer einmal mit unserer Anwendung im Web gearbeitet hat, wird die Vorteile dieser Lösung auch sofort zu schätzen wissen." Als Zielgruppe haben die Bayern den Mittelstand und dessen Firmennetze im Visier.

Neben Intersystems unterstützt das Projekt als weiterer Partner der Internet-Dienstleister und Carrier Nacamar. Im sogenannten "Nacamar Housing Center" in Darmstadt steht das Werkzeug durch eine direkte Hochgeschwindigkeitsanbindung an den Nacamar-Backbone den Anwendern zur Verfügung. Zwei Intel-Systeme unter Linux schützen dabei als Firewall-Rechner die Installation: Ein weiteres Linux-System, "Spider", übernimmt die Aufgabe, das WWW laufend nach neuen Informationen zu durchsuchen und sorgt somit für Aktualität der Daten.

Alle Anfragen, die von außen an Scout Master herangetragen werden, bearbeitet ein PC unter Windows NT 4.0. Die komplette Installation wird über ISDN per Fernwartung konfiguriert und verwaltet. Auf weiteren Linux-Systemen residieren die verschiedenen Datenbanken. Die Rechner, die über einen Switch mit dem NT- und dem Linux-Server am Frontend verbunden sind, bilden den eigentlichen Kern der Suchmaschine. Sie beinhalten die Texte und den Index. Hier finden sich die gesamten Daten, verteilt auf einzelne Datenbanken. Durch diesen Aufbau können später problemlos zusätzliche Systeme hinzukommen, um die Kapazität zu erweitern.

Fraas hat die Entscheidung zugunsten Caché nicht bereut: "Die Datenbank eignet sich gut für Einsätze dieser Art, da sie in der Lage ist, eine große Menge von Daten auf sehr geringem Raum zu speichern und zu verwalten. Der multidimensionale Ansatz bietet eine Datendichte, wie wir sie sonst nicht erreichen könnten." Als Pluspunkt nennt er die somit erreichte Skalierbarkeit seiner Software, denn er plant, sie sowohl als Stand-alone-Lösung für einen NT-Server als auch für den Gebrauch auf Unix-Clustern anzubieten. (sf)