Enterprise Content Management, Teil 2

ECM: Die Komponenten im Überblick

Informationen erfassen – Die Capture-Komponente

Die erste Komponente „Capture“ – gelegentlich auch als Input-Komponente bezeichnet - dient der Informationserfassung. Mit ihr werden analoge und digitale Unternehmensinformationen erstellt, aufbereitet und verarbeitet. Die Erzeugung und Erfassung der Daten kann manuell oder automatisch erfolgen.

Bei der manuellen Erfassung erzeugen Menschen die Informationen - beispielsweise durch Textverarbeitung oder das Ausfüllen von Formularen. Manuell generieren und erfassen lassen sich grundsätzlich alle Informationsformen – von Papierdokumenten über digitale Office-Dokumente, E-Mails und Vordrucke bis hin zu digitalisierter Sprache und Video.

Häufig erfolgt die Informationserfassung aber nicht manuell, sondern teil- oder vollautomatisch. Eine teilautomatische Erfassung wäre zum Beispiel das Einscannen von Textdokumenten. Hierzu werden verschiedene Erkennungstechnologien wie OCR (Optical Character Recognition), ICR (Intelligent Character Recognition) oder OMR (Optical Mark Recognition) genutzt.

Bei OCR wird der Text einer gedruckten Vorlage durch einfachen Mustervergleich automatisch erkannt und in maschinenlesbare Zeichen transformiert. Auf diese Weise wird möglichst 1:1 ein digitales Abbild der Papiervorlage erzeugt. Das elektronische Dokument kann dann digital weiterarbeitet und gespeichert werden - das Original klassisch archiviert oder auch vernichtet werden.

Texterfassung: OCR-Software wie der Abby Finereader unterstützt Unternehmen beim Einlesen von Papierdokumenten.
Texterfassung: OCR-Software wie der Abby Finereader unterstützt Unternehmen beim Einlesen von Papierdokumenten.

Moderne Texterkennung geht heute aber über OCR hinaus. Bei der Weiterentwicklung ICR wird die Qualität der Texterkennung durch Kontextanalyse verbessert. Typische Fehler von OCR-Systemen wie ein eingescanntes „8estellung“, bei dem das „B“ als „8“ identifiziert wird, können durch ICR-Methoden korrigiert werden, wenn der Kontext berücksichtigt wird. Dabei wird die Qualität der Ergebnisse durch Vergleiche mit Wörterbüchern, Abgleich mit Referenzlisten und statistisch-linguistische Verfahren verbessert.

Die dritte Erkennungstechnologie, OMR, liest mit großer Sicherheit spezielle Markierungen in vordefinierten Feldern aus und hat sich beim Einlesen von Fragebögen, Multiple-Choice-Tests und Vordrucken bewährt.