Enterprise Content Management, Teil 2

ECM: Die Komponenten im Überblick

14.11.2008 von Klaus Manhart
Ein vollständiges ECM-System besteht aus mehreren Komponenten, die Informationen erfassen, bearbeiten, archivieren und bereit stellen. Lesen Sie in diesem Beitrag, welche Aufgaben die Komponenten haben, welche Technologien dahinter stecken und wie die Teile zusammenwirken.

Wie im ersten Teil dieser Serie angedeutet, ist Enterprise Content Management (ECM) kein einheitlicher, präzise definierter IT-Ansatz oder gar eine bestimmte Software-Architektur. ECM versteht sich vielmehr als eine gesamtheitliche Sicht und Referenzarchitektur zur Darstellung von dokumentgetriebenen IT-Lösungen. Konkret geht es dabei um Konzepte, Technologien und Lösungen rund um elektronische, aber auch papierbasierte Dokumente und die damit verbundenen Prozesse.

Das oberste Ziel von ECM ist es, verstreute und unterschiedlich positionierte Ansätze wie Dokumenten-Management, Workflow, Collaboration, Archivierung oder Dokumentenaustausch zu integrieren und aufeinander abzustimmen. Die Zusammenstellung all dieser Teillösungen zu einer Rahmenarchitektur für Dokumente und Geschäftsprozesse ist die eigentliche Innovation von ECM. Die ECM-Leitorganisation AIIM schlägt fünf Komponenten vor, aus denen eine solche Rahmenarchitektur besteht und die zusammen kombiniert ein vollständiges ECM-System ergeben. Die fünf Komponenten sind im Einzelnen:

  1. Capture (Erfassung)

  2. Manage (Bearbeitung und Nutzung)

  3. Store (Speicherung)

  4. Preserve (Archivierung)

  5. Deliver (Bereitstellung)

Diese fünf Komponenten werden in diesem Beitrag vorgestellt. Die Abbildung unten zeigt die Komponenten grafisch und verdeutlicht gleichzeitig deren Interaktion und den zeitlichen Ablauf. Die Informationen werden (von links nach rechts bzw. von oben nach unten) erfasst (capture), gemanaged, gespeichert (store), archiviert (preserve) und ausgeliefert (deliver).

Die Bestandteile der zentralen Manage-Komponente finden Sie in der Grafik ringförmig um die Store-Komponente aufgelistet. Sie bedeuten im Einzelnen: Dokumenten-Management (DM), Collaboration (Collab), Web Content Management (WCM), Records Management (RM) und Workflow (WF) / Business Process Management (BPM).

Das AIM-Modell: Die fünf ECM-Komponenten mit den zentralen, ringförmig angeordneten Manage-Technologien.

In der Praxis müssen nicht alle ECM-Komponenten realisiert werden. Welche Komponenten wichtig sind hängt von den Geschäftsprozessen des Unternehmens ab. Beispielsweise brauchen kleinere Unternehmen oft keine Collaboration-Tools, wenn sie über keine Zweigstellen oder Niederlassungen verfügen.

Teil 1: ECM - Informationsflut im Unternehmen im Griff

Teil 2: ECM: Die Komponenten im Überblick

Teil 3: ECM Informationsverwaltung: DM-Systeme, Groupware und Co.

Teil 4: Auswahlhilfe für die passende ECM-Software

Informationen erfassen – Die Capture-Komponente

Die erste Komponente „Capture“ – gelegentlich auch als Input-Komponente bezeichnet - dient der Informationserfassung. Mit ihr werden analoge und digitale Unternehmensinformationen erstellt, aufbereitet und verarbeitet. Die Erzeugung und Erfassung der Daten kann manuell oder automatisch erfolgen.

Bei der manuellen Erfassung erzeugen Menschen die Informationen - beispielsweise durch Textverarbeitung oder das Ausfüllen von Formularen. Manuell generieren und erfassen lassen sich grundsätzlich alle Informationsformen – von Papierdokumenten über digitale Office-Dokumente, E-Mails und Vordrucke bis hin zu digitalisierter Sprache und Video.

Häufig erfolgt die Informationserfassung aber nicht manuell, sondern teil- oder vollautomatisch. Eine teilautomatische Erfassung wäre zum Beispiel das Einscannen von Textdokumenten. Hierzu werden verschiedene Erkennungstechnologien wie OCR (Optical Character Recognition), ICR (Intelligent Character Recognition) oder OMR (Optical Mark Recognition) genutzt.

Bei OCR wird der Text einer gedruckten Vorlage durch einfachen Mustervergleich automatisch erkannt und in maschinenlesbare Zeichen transformiert. Auf diese Weise wird möglichst 1:1 ein digitales Abbild der Papiervorlage erzeugt. Das elektronische Dokument kann dann digital weiterarbeitet und gespeichert werden - das Original klassisch archiviert oder auch vernichtet werden.

Texterfassung: OCR-Software wie der Abby Finereader unterstützt Unternehmen beim Einlesen von Papierdokumenten.

Moderne Texterkennung geht heute aber über OCR hinaus. Bei der Weiterentwicklung ICR wird die Qualität der Texterkennung durch Kontextanalyse verbessert. Typische Fehler von OCR-Systemen wie ein eingescanntes „8estellung“, bei dem das „B“ als „8“ identifiziert wird, können durch ICR-Methoden korrigiert werden, wenn der Kontext berücksichtigt wird. Dabei wird die Qualität der Ergebnisse durch Vergleiche mit Wörterbüchern, Abgleich mit Referenzlisten und statistisch-linguistische Verfahren verbessert.

Die dritte Erkennungstechnologie, OMR, liest mit großer Sicherheit spezielle Markierungen in vordefinierten Feldern aus und hat sich beim Einlesen von Fragebögen, Multiple-Choice-Tests und Vordrucken bewährt.

Capture – Vollautomatische Erfassung

Neben manueller und halbautomatischer Erfassung lassen sich Daten auch vollautomatisch - direkt aus Anwendungsprogrammen heraus - generieren. Beispielsweise kann ein ERP-System Bestelldaten erzeugen, wenn es den Lagerbestand automatisch über eine Schnittstelle prüft.

Neben ERP-Anwendungen sind auch EDI- und XML-Dokumente eine oft genutzte Datenquelle. Die automatische Übernahme erfolgt in diesen Fällen meist im so genannten COLD-Verfahren – einer besonderen Methode zur vollautomatischen Verarbeitung strukturierter Eingangsdaten. Dabei werden die angelieferten Daten mittels eigener Strukturinformationen und Vorgaben aufbereitet und an die internen Speichersysteme übergeben.

Das Ziel aller Capture-Teilkomponenten ist es, die erfassten Informationen für die Weiterbearbeitung und Archivierung der nachfolgenden Manage-Komponente bereitzustellen. Nach der Erfassung müssen die Daten deshalb um beschreibende Merkmale ergänzt werden, mit denen die Dokumente beispielsweise wieder gefunden werden.

Hierzu werden sie indexiert – also mit Schlagworten versehen -, kategorisiert und eventuell in ein bestimmtes Format überführt. Masken helfen, die Inhalte der Dokumente nach ausgewählten Kriterien wie Eigenschaften oder Schlüsselworte weiter zu verarbeiten. Besonders wichtig für die inhaltliche Suche ist eine Kategorisierung oder automatische Klassifikation der Dokumente nach vorausgewählten Kriterien. Für diesen Zweck werden mittlerweile auch selbstlernende Systeme eingesetzt.

Informationen verwalten – Die Manage-Komponente

Im Bereich Management findet die eigentliche Arbeit mit dem Content statt. Hier werden die Vorteile des ECM-Systems für jeden Mitarbeiter deutlich. So können sie zum Beispiel Informationen in Datenbanken suchen und bei entsprechender Berechtigung darauf zugreifen und sie weiter bearbeiten.

In der Manage-Komponente werden die im Capture-Prozess erfassten Informationen administriert, bearbeitet und genutzt. Zur Manage-Komponente gehören die fünf Anwendungsfelder Dokumenten-Management, Collaboration, Web CM, Records Management und Workflow (siehe Grafik).

Die Manage-Anwendungen: Dokumenten-Management, Collaboration, Web CM, Records Management und Workflow.

Die verschiedenen Module sollen neben ihren eigentlichen Aufgaben auch Information zur weiteren Bearbeitung nutzbar machen und erhalten. Außerdem müssen sie Datenbanken und Berechtigungssysteme in den Arbeitsablauf integrieren. Dokumenten-Management sollte beispielsweise alle Dokumente von der Erstellung über die Bearbeitung bis hin zur Archivierung überwachen und unterschiedliche Varianten versionieren. Für diese Integration müssen die unterschiedlichen Manage-Anwendungen über standardisierte Schnittstellen und sichere Transaktionsprozesse bei der Kommunikation zwischen den Komponenten verfügen.

Die einzelnen Manage-Anwendungsfelder werden im dritten Teil dieser Serie ausführlicher vorgestellt.

Temporäres Speichern – Die Store-Komponente

Die Store-Komponente speichert die Daten, die nicht für eine langfristige Archivierung vorgesehen sind, zeitlich begrenzt. Archivierungspflichtige Daten wie zum Beispiel Geschäftskorrespondenz oder Verträge fallen selbstverständlich nicht darunter, sondern müssen langfristig aufbewahrt werden. Die hierfür zuständige Archivkomponente „Preservation“ (siehe unten) ist deutlich abzugrenzen von der Store-Komponente.

Die AIIM unterscheidet bei der Store-Komponente drei unterschiedliche Bereiche:

Repositories sind Speicherorte und Datenspeichersysteme, an denen die Daten abgelegt werden. Sie umfassen unter anderem das Filesystem, Caches, Datenbanken und Data Warehouses - die auch kombiniert eingesetzt werden können. Wichtig ist ein verlässliches Filesystem mit geeigneter Cacheablage. Im Zwischenspeicher werden dann nur die im laufenden Prozess notwendigen Daten abgelegt.

Auf die Informationen in den Repositories lässt sich über Library Services zugreifen, die zweite Store-Komponente. Library Services sind systemnahe Verwaltungskomponenten zum Informationszugriff, die die Speicherorte in der temporären Ablage verwalten. Sie sind letztendlich für den Empfang und die Speicherung der Daten aus den Capture- und Manage-Komponenten zuständig.

Library Services greifen direkt auf die Datenbanken der Manage- und Capture-Komponente zu, um Search- und Retrieval-Funktionen ausführen zu können. Der Datenbank ist jedoch nicht bekannt, wo der physische Speicherort der Datenobjekte ist. Über diese Information verfügt alleine der Library Service, der alle Speicherarten und -orte verwaltet.

Library Services haben weitere Aufgaben. So müssen sie Protokoll über die Nutzung und Veränderung von Informationen führen („Audit Trail“) und über ein Versionsmanagement zur Kontrolle unterschiedlicher Informationsstände verfügen.

Die dritte Store-Komponente „Technologies“ beinhaltet die unterschiedlichen Speicher-Technologien, die abhängig von Anwendungszweck und IT-Umgebung zum Einsatz kommen. Zu den Essentials gehören Festplatten als RAID-Systeme am Server sowie SAN und NAS. Magnetbänder werden meist zur Datensicherung eingesetzt, auch optische Speichermedien wie DVDs oder MO (Magneto Optical) werden gelegentlich genutzt. Die Anforderungen an Store-Speichersysteme sind allerdings weniger hoch als die für Archivsysteme.

Langzeit-Archivierung – Die Preserve-Komponente

Die Komponente Preserve ist auf die langfristige, sichere Archivierung von Daten ausgelegt. Die Informationen müssen stabil, geschützt und in vielen Fällen unveränderbar aufbewahrt werden. Dabei sind auch die rechtlichen Vorgaben für die Archivierung von Dokumenten zu beachten.

Zu unterscheiden ist hier zwischen der eigentlichen Langzeit-Archivierung und der revisionssicheren Archivierung. Von Langzeit-Archivierung spricht man, wenn Dokumente – unabhängig von rechtlichen Forderungen - mindestens zehn Jahre aufbewahrt werden sollen. Die revisionssichere Archivierung hingegen muss bestimmten gesetzlichen Anforderungen genügen – etwa Anforderungen des Handelsgesetzbuches und der Abgabenordnung. Dokumente, die diesen Gesetzen genügen müssen, sind in revisionssicheren Archiv- und Speichersystemen abzulegen.

Wichtig bei der langfristigen elektronischen Archivierung ist die regelmäßige Durchführung von Migrationen. Bei dieser „Continuous Migration“ sollen die gespeicherten Dokumente immer in den aktuellen technischen Umgebungen verfügbar bleiben. Ein plattes Beispiel: Disketten-Laufwerke sind heute kaum mehr erhältlich und die darauf gespeicherten Daten oft nur mit hohem Aufwand abrufbar. Ein rechtzeitiges Migrieren hält die Daten hingegen immer technisch verfügbar.

Preserve-Lösungen bestehen heute meist aus mehreren Elementen. Sie müssen zum einen auf die Robustheit und Langlebigkeit der Hardware achten, zum anderen sollte die genutzte Software die Datenmigration erleichtern. Elektronische Archivsysteme sind deshalb meistens eine Kombination aus Verwaltungssoftware mit Records Management, Imaging oder Document Management, Library Services und Speicher-Subsystemen.

Preserve – Speichermedien für Langzeit-Archivierung

Herkömmliche Festplatten gelten als nicht geeignet für die revisionssichere, elektronische Archivierung, da die gespeicherten Informationen jederzeit geändert und überschrieben werden können. Auch die Daten auf handelsüblichen Magnetbändern lassen sich löschen und ändern.

Geeignete Speichermedien für die revisionssichere Langfrist-Archivierung sind WORM-Systeme (Write Once Read Many) – rotierende, digital-optische Wechseldatenträger. WORM-Medien wie die CD-R oder DVD-ROM sind nur einmal beschreibbar und werden damit den rechtlichen Anforderungen der Unveränderbarkeit von Daten gerecht. Die Speichermedien sind aufgrund ihrer physikalischen Eigenschaften gegen Veränderungen geschützt und bieten zudem eine wesentliche höhere Lebensdauer als die magnetischen Medien.

Speziell für die elektronische Archivierung entwickelt wurde die 5 ¼ Zoll WORM. Anders als CD und DVD, die für den Endverbrauchermarkt bestimmt sind und nur über relativ geringe Storagekapazität verfügen, sind 5 ¼ Zoll WORMs gegen Umwelteinflüsse geschützt und besonders verfälschungssicher. Zudem bieten sie mit aktuell bis zu 50 GB Speicherplatz deutlich mehr Kapazität als DVDs/CDs.

Für die Verwaltung und Nutzung der WORM-Medien im Unternehmenseinsatz sind Plattenwechselautomaten, sogenannte Jukeboxen, gebräuchlich. Diese stellen softwaregestützt die benötigten Informationen von den Medien bereit. Die Software zur Ansteuerung von Jukeboxen ist entweder direkt in die Archivsoftware integriert oder als unabhängige Ansteuerungssoftware verfügbar.

Die Festplatte bleibt bei der professionellen Archivierung dennoch nicht außen vor. Content Adressed Storage (CAS) ist magnetischer Festplattenspeicher, der durch spezielle Software gegen Überschreiben, Löschen und Verändern wie ein WORM-Medium geschützt ist. Ein Überschreiben oder Verändern von Daten ist damit unmöglich. CAS-Speichersysteme werden wie normale Festplatten in die IT-Umgebung integriert und bieten hochperformant Speicherkapazität im TByte-Bereich.

Innovative Archivierung: Der Langzeitspeicher Fast LTA garantiert 30 Jahre Aufbewahrung durch den von FAST entwickelten „Hardware WORM Adapter“ (Quelle: FAST LTA)

Auch Magnetbänder können auf die Anforderungen professioneller Archivierungszwecke „hochgerüstet“ werden. WORM-Tapes stellen über spezielle Bandmedien und besondere Laufwerke Einmalbeschreibbarkeit sicher. Besonders in Rechenzentren, in denen Bandroboter und Librarysysteme bereits vorhanden sind, stellen die WORM-Tapes eine einfach zu integrierende Komponente für die Langzeitarchivierung dar.

Schließlich können auch NAS/SAN-Systeme für die Archivierung eingesetzt werden, wenn sie die Bedingungen der Revisionssicherheit mit unveränderbarer Speicherung, Schutz vor Manipulationen und Löschen erfüllen.

Informationen ausgeben – Die Deliver-Komponente

Die Deliver- oder Ausgabe-Komponente stellt die Informationen aus den Manage-, Store- und Preserve-Komponenten bereit. Sie wird auch als Output-Management bezeichnet. Aufgabe der Deliver-Komponente ist es, die Informationen für den Empfänger optimal aufbereitet zur Verfügung zu stellen bei gleichzeitiger Kontrolle der Nutzung. Die Deliver-Komponente kann in drei Gruppen unterteilt werden: Transformationstechnologien, Security-Technologien und Distribution.

Die Transformationentechniken gewährleisten, dass die Daten anschaulich für Kunden oder Mitarbeiter aufbereitet werden. Dieser Prozess sollte immer verlustfrei, kontrolliert und nachvollziehbar ablaufen. Zu den Ausgabetechniken zählen beispielsweise individualisierbare Kundenanschreiben, Protokolle und PDF-Dokumente. Im Einzelnen sind dies:

Weitere Transformationstechnologien, die zur Ausgabe eingesetzt werden, sind Konverter zur Erzeugung einheitlicher Formate und Viewer zur Anzeige von Dokumenten unterschiedlicher Formate. Auch Kompressionsverfahren für die Reduktion des Speicherplatzbedarfs, insbesondere von Bildern, werden verwendet. Genutzt wird dabei oft das ITU-Verfahren für TIFF-Formate und JPEG2000 für JPG-Bilder. Syndication schließlich dient zur Bereitstellung von Content in unterschiedlichen Aufbereitungsformaten. Damit kann der gleiche Inhalt für verschiedene Anwendungszwecke genutzt werden.

Deliver – Security und Distribution

Security-Technologien stehen als Oberfunktion allen ECM-Komponenten zur Verfügung. Zum Einsatz kommen hier PKI- und DRM-Technologien. Public Key Infrastructure ist die Basistechnologie für den Einsatz elektronischer Signaturen, verwaltet Schlüssel, Zertifikate und stellt die Authentizität von Signaturen sicher. Digitale Signaturen dienen dazu, für Dokumente bei Übermittlungen die Authentizität des Absenders und die Integrität der übermittelten Nachricht sicher zu stellen.

Über DRM („Digital Rights Management“) lassen sich Rechte an elektronischen Daten schützen und zur Absicherung von Urheberrechten und Copyrights einsetzen. Damit können etwa Texte im Internet geschützt werden. Ein Beispiel sind elektronische Watermarks, die direkt in Dokumente integrierbar sind.

Schließlich verbleibt noch die Distribution, also die konkrete Auslieferung der Dokumente an die Mitarbeiter oder Kunden. Hier kommen die verbreiteten Publikationstechniken zum Einsatz – wobei Internet-Technologien dominieren: Web, Intranet, Portale, E-Mail, Newsletter, Fax, EDI, Mobiltelefone oder Zeitschriften.

Zur Distribution zählen alle Technologien, die verwendet werden, um die Informationen zum Kunden oder zum Endverbraucher zu transportieren. Eine zentrale Rolle für die Distribution des Contents übernimmt das Internet – hier können die gewünschten Informationen in Echtzeit bereitgestellt und auf den Anwender zugeschnittene Webpräsenzen erstellt werden. Neben dem WWW zählen auch E-Mails, Newsletter, digitales Fernsehen und Fachzeitschriften zur Distribution.

Fazit

ECM ist eine Unternehmens-Infrastruktur, die aus verschiednen Einzelkomponenten besteht, die oft in Unternehmens-Software bereits vorhanden ist. Diese einzelnen Lösungen sind beispielsweise Dokumenten-Management oder Web Content Management. Ziel von ECM ist die Zusammenfassung und Integration der einzelnen Lösungen zu einem Gesamtkonzept, um so die Unternehmensprozesse zu beschleunigen und zu optimieren.

Für ein umfassendes, „vollständiges“ ECM sind nach der ECM-Leitorganisation „Association for Information and Image Management“ fünf Kernbereiche beziehungsweise Komponenten erforderlich: „Capture“ ist die Erfassung von Informationen, „Management“ die konkrete Verarbeitung des Content, „Store“ das temporäre Sichern aller relevanten Dateien, „Preserve“ die langfristige Archivierung und „Deliver“ die Auslieferung der Dokumente an Kunden und Mitarbeiter. Diese Komponenten bilden das Gerüst eines ECM-Systems. (ala)

Teil 1: ECM - Informationsflut im Unternehmen im Griff

Teil 2: ECM: Die Komponenten im Überblick

Teil 3: ECM Informationsverwaltung: DM-Systeme, Groupware und Co.

Teil 4: Auswahlhilfe für die passende ECM-Software