Enterprise Content Management, Teil 3

ECM Informationsmanagement: DM-Systeme, Groupware und Co.

Indexsuche und Indexierung

Eine der wichtigsten Anforderungen an ein DM-System ist das schnelle, komfortable und vor allem erfolgreiche Suchen im Archiv. Das Wiederfinden eines Dokumentes erfolgt dabei weniger über den Dateinamen, sondern fast ausschließlich über das Recherchieren in einer Datenbank.

CI-Dokumente können theoretisch per Volltextsuche durchstöbert werden, was allerdings zeitaufwändig ist. In der Praxis wird oft die Indexsuche auf Basis von Schlagworten eingesetzt. Diese ist bei NCI-Dokumenten die einzige Möglichkeit, bestimmte Dateien wiederzufinden, da das Dokument nur als Pixelbild gespeichert wird.

Für die Indexsuche müssen einem Dokument Suchmerkmale wie Autor, Titel, Erstellungsdatum und vor allem inhaltlich relevante Begriffe zugeordnet sein. Diese Schlagworte oder Attribute werden bei der Aufnahme eines Dokuments in ein DMS erfasst – ein Vorgang, der als Indexierung, gelegentlich auch als Indizierung, bezeichnet wird.

Die Schlagworte werden getrennt von den Dokumenten in einer Datenbank gespeichert. Die Summe der Schlagworte eines Dokuments ergibt das Dokumentenprofil. Zu einem späteren Zeitpunkt kann ein Dokument bei einer Recherche über ein einzelnes oder eine Kombination von Schlagworten wiedergefunden werden.

Dokumente wiederfinden: Die bei der Indexierung einem Dokument zugeordneten Attribute werden in einer Datenbank gespeichert - über diese lassen sich Dokumente später wieder identifizieren.
Dokumente wiederfinden: Die bei der Indexierung einem Dokument zugeordneten Attribute werden in einer Datenbank gespeichert - über diese lassen sich Dokumente später wieder identifizieren.

Die Erstindizierung erfolgt in Abhängigkeit von der Art des Dokumentes und dessen Umfang entweder manuell, teil-automatisch oder automatisch. Bei der automatischen Indexierung übernimmt der Rechner die Verschlagwortung. Diese wird häufig bei CI-Dokumenten in Form einer automatischen Volltextindexierung eingesetzt. Dabei werden bis auf unbedeutende „Stoppwörter“ – zum Beispiel „der, die, das“ „und“, „in“ oder „auf“ - alle Wörter eines Textes in den Index aufgenommen.

Bei NCI-Dokumenten muss manuell indexiert werden. Die Art und Anzahl der dabei verwendeten Attribute ist abhängig vom Inhalt und dem Einsatzzweck des Dokuments. Für das Auffinden einer Rechnung sind z. B. die Rechnungs- und Kundennummer ausreichend, während technische Zeichnungen mit wesentlich mehr Attributen versehen werden sollten. Da die Verschlagwortung mit beliebigen Wörtern sehr ungenau ist, sollten diese besser einem kontrollierten Vokabular - wie etwa der Schlagwortnormdatei - entnommen werden.