Enterprise Content Management

Eine digitale Poststelle einrichten - die Herausforderungen beim ECM

Dokumentenklasse ermitteln

Für die automatische Ermittlung der Dokumentenklasse kommen zumeist "Trainings"-Verfahren zum Einsatz. Hierfür stellt ein Fachadministrator zunächst eine Trainingsmenge gescannter Unterlagen mit vorgegebener Dokumentenklassenzuordnung zur Verfügung. Im Rahmen des automatisch ablaufenden Trainings ermittelt das Capture-System dann eigenständig Regeln zur Unterscheidung der einzelnen Dokumentenklassen, die es je nach Produkt aus den Layout- und Textinformationen der bereitgestellten Dokumente ableitet.

Einige Produkte erlauben dem Administrator, anschließend durch Customizing oder Programmierung zusätzlich Einfluss auf die Regelverarbeitung zu nehmen. Manche Systeme sind überdies mit einer dynamischen Lernfunktion ausgestattet, die Korrektureingaben der Anwender überwacht und selbstständig das Regelwerk im laufenden Betrieb anpasst. Hierdurch erhöht sich zwar die Flexibilität der Regelpflege enorm, allerdings wird es für die Anwender immer schwieriger nachzuvollziehen, welche Einstellungsänderung welche Erkennungswirkung hervorruft. Gerade wenn sich die Erkennungsleistung verschlechtert, ist das jedoch besonders wichtig.

Die Vorgaben bestimmen den Erfolg

Ein großer Erfahrungsschatz hilft dabei, die Dokumentenklassen festzulegen und die Trainingsmengen richtig zusammenzusetzen. Denn ungünstig gestaltete Klassifizierungsanforderungen verhindern einen hohen Automationsgrad. Bei unzureichenden Erkennungsraten sind häufig nicht nur die Produkteinstellungen, sondern gegebenenfalls auch die Trainingsdokumente und der Klassifizierungsrahmen anzupassen.

Bei der produktiven Eingangsbearbeitung wenden die Erkennungslösungen die Klassifizierungsregeln an und ermitteln Wahrscheinlichkeiten für die Zuordnung des einzelnen Dokuments zu den verschiedenen trainierten Dokumentenklassen. Über teilweise einstellbare Schwellwerte wird entschieden, ob die ermittelte Dokumentenklasse ungeprüft übernommen oder ob eine von einem Bediener besetzte Korrekturfunktion angesteuert wird.

In vielen Fällen besteht die Unsicherheit darin, ob das Dokument einer Klasse A oder der alternativen Klasse B zuzuordnen ist. Bei der Schwellwertvergabe für die automatische Entscheidung kann der Administrator daher in einigen Systemen festlegen, wie hoch die Mindestwahrscheinlichkeit für die Zuordnung zur Klasse B ausfallen muss, und in manchen Systemen auch, wie groß die Differenz zwischen den Zuordnungswahrscheinlichkeiten zwischen A und B sein muss, um eine "sichere" Entscheidung zu treffen.

Nie sicher - immer nur wahrscheinlich

Diese auf Wahrscheinlichkeiten beruhende Entscheidung kann allerdings dennoch falsch sein - man spricht dann von einer "False Positive"-Zuordnung. Solche Fehlzuordnungen können indes gravierende Auswirkungen haben: Im harmlosesten Fall gelangt das Dokument zum "falschen" Bearbeiter, der eine Korrektureingabe tätigen und hiermit die Zuleitung zum zuständigen "richtigen" Sachbearbeiter initiieren muss. In ungünstigeren Fällen kommt das Dokument beispielsweise aber gar nicht erst in die Bearbeitung und bleibt in der falschen Akte liegen, oder ein besonders schützenswertes Dokument könnte Mitarbeitern zugänglich werden, die fachlich gar nicht zugriffsberechtigt sind.

Als Nebenbedingung für die automatische Klassifizierung ist für viele Anwender daher wichtig, "False Positive"-Entscheidungen tunlichst zu vermeiden. Hierfür eignen sich einerseits die in den Produkten enthaltenen manuellen Prüffunktionen sowie die fachliche Aufteilung der Dokumente in möglichst eindeutig erkennbare Klassen.

Suchkriterien ermitteln

Für die zweite Erkennungsaufgabe, die Ermittlung von Recherche- und Fachdaten, verwenden die Lösungen für Formulare zumeist positionsbezogene Datenermittlungsverfahren und für semi-strukturierte Dokumente wie Rechnungen und Bestellungen komplexere Text-, Phrasen- und Datensuchverfahren. Positionsbezogene Datenermittlungsverfahren liefern heutzutage bei guten Vorlagen bereits sehr hohe Erkennungsraten - allerdings muss der Administrator in den meisten Systemen für alle Formulare und für alle Formularvarianten angeben, an welcher Position welche Daten auszulesen sind. Hierdurch entsteht ein hoher Pflegeaufwand, der sich nur bei einem entsprechend hohen Formularaufkommen rechnet.

Die Datenermittlungsaufgabe ist für semi-strukturierte Dokumente erheblich komplexer als für Formulare: In diesen Lösungen muss die Erfassungsanwendung eigenständig die gesuchten Informationen finden und sucht hierbei beispielsweise zunächst nach Begriffen wie "Bestellung" oder "Bestellnummer" in allen möglichen Schreibweisen sowie deren Synonyme, um im Umfeld dieses Begriffs im nächsten Schritt die Bestellnummer zu ermitteln, auf die sich die Rechnung bezieht. Um fachliche Fehler, insbesondere Fehlzuordnungen, zu vermeiden, wird in Scan-Umgebungen typischerweise auf Fachdaten zurückgegriffen. Hierfür werden die Indexier-Anwendungen mit Prüfroutinen und Nachschlagetabellen versehen, die es der Lösung erlauben, die Einheit der Dokumenteninhalte mit den zum Dokument vergebenen Schlüsselzuordnungen (Kunde, Lieferantennummer etc.) und weiteren Zuordnungsdaten, wie Name und Adresse, abzugleichen.