Was ist eigentlich Datenintegration?

24.07.2007 von Otto Neuer
Ein wichtiger Bestandteil der Business Intelligence ist die Zusammenführung der Daten aus allen möglichen Quellen, um die gewünschten Informationen und Reports zeitnah generieren zu können.

Tatort UNO-Vollversammlung: Delegierte aus derzeit 192 Nationen diskutieren über wichtige Fragen. Vor den Sitzungen geht es in der Lobby zu wie beim Turmbau zu Babel, die Vielfalt der Sprachen ist enorm. Würde beispielsweise der südafrikanische Präsident in einer seiner Landessprachen (es gibt allein elf offiziell anerkannte, die alle untereinander als gleichberechtigt gelten) über den Zustand seines Landes referieren, würde ein Großteil des Auditoriums seinen Ausführungen nicht folgen können.

Zu diesem Zweck sind Dolmetscher installiert, um die Reden simultan zu übersetzen. Um den Aufwand gering zu halten, werden aber nicht sämtliche Kombinationen angeboten, sondern so genannte Amtssprachen genutzt – das sind zurzeit Arabisch, Chinesisch, Englisch, Französisch, Russisch und Spanisch. Im Verwaltungsalltag werden sogar nur zwei Sprachen benutzt: Englisch und Französisch dienen als so genannte Arbeitssprachen. Durch die erfolgte „Standardisierung“ auf wenige Amtssprachen und lediglich zwei Arbeitssprachen haben die Vereinten Nationen das Sprachproblem in den Griff bekommen.

Babylonisches Sprachgewirr in der IT

Ein Zustand, von dem IT-Leiter in großen Organisationen nur träumen können. Die Kommunikation der beteiligten Komponenten untereinander ist in heterogenen IT-Landschaften äußerst komplex. Viele Rechenzentren beherbergen Gerätschaften, die über einen Zeitraum von Jahrzehnten angeschafft und – oft mehr schlecht als recht – miteinander verbunden wurden.

Stückwerk regiert vielerorts die IT-Welt. Teilweise basieren diese Systeme auf gültigen Standards (von denen es natürlich eine Unmenge gibt), zum Teil aber auch nicht: insbesondere diese proprietären Systeme stellen die Verantwortlichen vor enorme Probleme.

Datenintegration: Viele Quellen, viele Anwendungen und viele verschiedene Anforderungen sind so unter einen Hut zu bringen, dass effektive Business Intelligence möglich wird.

Nicht selten sind die im Umgang mit bestimmten Plattformen versierten Mitarbeiter bereits pensioniert oder haben das Unternehmen anderweitig verlassen. Eine einheitliche Sprache spricht der IT-Park nicht und so wird, ähnlich wie in der UNO-Vollversammlung, eine Art Übersetzer benötigt, um die Daten zu verstehen und mit ihnen arbeiten zu können: Software zur Datenintegration.

Wildwuchs in den Griff bekommen

Informationen sind in der heutigen Unternehmenslandschaft in aller Regel nicht auf ein monolithisches Rechenzentrum konzentriert. Sie fließen in komplexen Netzwerken zwischen unterschiedlichen Systemen, zwischen Lieferanten und Kunden, zwischen Firmen und ihren Partnern in anderen Städten, Ländern oder Kontinenten.

Bits und Bytes bilden rund um den Globus die Basis wichtiger Geschäftsprozesse, angefangen bei Verwaltungsaufgaben wie der Lohnbuchhaltung bis hin zur Abwicklung weltweiter Transaktionen oder der übergreifenden Steuerung komplexer Produktionsabläufe. Ob ein Dienstleister dabei in Indien oder in Baden-Württemberg sitzt, spielt dabei aus technischer Sicht keine Rolle mehr, denn Grenzen existieren für Daten in einer vernetzen Welt nicht.

Der reine Transport der Daten stellt aber nur einen kleinen Ausschnitt des Problems dar: zusätzlich müssen sie nämlich auch noch so aufbereitet werden, dass das Zielsystem etwas damit anfangen kann. Sie sind also zu übersetzen – und das am besten in Realzeit. PC-Anwender kennen das Problem: oftmals sind bereits verschiedene Programmversionen nicht mehr zueinander kompatibel. Auf Unternehmensebene gewinnen inkompatible Daten aber eine ganz andere Dimension. Ein Finanzvorstand will und manchmal muss er mit einem Knopfdruck die weltweiten Daten konsolidieren und einsehen.

ETL: Extract - Transform - Load

Einerseits müssen Firmen, um wettbewerbsfähig und auch gesetzeskonform zu sein, auf alle Daten zu einem bestimmten Zeitpunkt zugreifen und sie verarbeiten können. Als zentrale Sammelstelle solcher Daten dienen meist Data Warehouses. Andererseits setzten sich wichtige Informationen oft aus Daten zusammen, die nicht nur von einer Plattform stammen, sondern wiederum Ergebnisse von Berechnungen aus den verschiedensten Umgebungen sind.

Durch Wachstum und Unternehmenszusammenschlüsse existieren zahllose Systeme, die ohne weiteres nicht miteinander interagieren. Welcher Automobilzulieferer kennt schon die IT des chinesischen Teileproduzenten, den er gerade übernommen hat und den er jetzt in seinen Supply Chain integrieren muss?

Um solche Systeme zu einer produktiven Zusammenarbeit zu bewegen, müssen Schnittstellen zwischen ihnen definiert und Programme erstellt werden, mit denen Daten von einem System extrahiert, danach an die Vorgaben des Zielsystems angepasst und dorthin geladen werden. ETL (Extract - Transform - Load), so lautet im Fachjargon daher der Dreiklang der Datenintegration. Die Erstellung und Pflege dieser Verbindungen ist enorm zeit- und kostenintensiv. Spezialisierte Softwareanbieter bieten aber fertige Lösungspakete an, mit denen sich diese Aufgabe lösen lässt.

Business Intelligence entsteht aus Informationen

Auch in der Wirtschaft gilt: Intelligenz entsteht aus Wissen und das setzt sich aus Informationen zusammen. Firmen suchen also nach Möglichkeiten, auf alle benötigten Daten von allen Plattformen gleichzeitig zugreifen zu können und dabei vor allem sicherzustellen, dass diese Daten auch richtig interpretiert werden.

Zentral: Nur ein übergreifender Blick ermöglicht es, einer Vielzahl von Anforderungen gerecht zu werden.

Hinzu kommt der Wunsch, zu wissen, wer wann was mit den Daten gemacht hat. Dieser Wunsch ist vor allem aufgrund gesetzlicher Vorgaben zu einer existenziellen Notwendigkeit geworden. Regulatorische Anforderungen wie beispielsweise der Sarbanes Oxley Act oder Basel II setzen voraus, dass Unternehmen zu jedem Zeitpunkt auf Knopfdruck einen einheitlichen Blick auf alle datenbasierten Prozesse haben können. Für fundierte Ergebnisse müssen möglichst viele Datentypen in die Analyse einfließen.

Informationen liegen zu 90 Prozent unstrukturiert vor

Bei den involvierten Datenquellen kann es sich um Standardapplikationen wie zum Beispiel SAP, Oracle oder Peoplesoft handeln, um verschiedene relationale Datenbankformate und Flatfiles aller Art, um Standards wie IBM MQSeries, TIBCO Rendezvous, webMethods, ODBC oder XML, oder um hierarchische und multidimensionale Plattformen, wie verschiedene Mainframe-Systeme, C-ISAM oder Adabas.

Neben solchen Standards existieren aber auch unstrukturierte Daten aus E-Mails, Word-Dokumenten, Präsentationen, Excel-Tabellen oder PDF-Dateien. Schätzungen zufolge machen diese unstrukturierten Daten bis zu 90 Prozent der in einem Unternehmen gespeicherten Informationen aus.

Teilstrukturierte Daten mit Industriestandard-Formaten – etwa EDIFACT im Handel oder SWIFT im Finanzsektor – sind ebenfalls weit verbreitet und dienen in zunehmendem Maße als Basis für automatisierte Geschäftsumgebungen. Eine leistungsfähige Datenintegrationslösung sollte all diese Datentypen unterstützen. Erst wenn diese technische Hürde genommen ist, können multidimensionale Analysen mit den gängigen Werkzeugen zur Business Intelligence durchgeführt werden.

Vom Problemfall zur Software-Funktion „On Demand“

Noch vor wenigen Jahren fanden Datenintegrationsprojekte vorwiegend auf Abteilungsebene statt und behandelten spezielle Probleme aus den Fachbereichen. Eine konkrete Aufgabe im Unternehmen musste gelöst werden, beispielsweise die Anbindung einer Beschaffungslösung an die Buchhaltung. Anstelle der zeitaufwändigen und fehlerträchtigen Programmierung „Marke Eigenbau“ traten dabei immer mehr spezialisierte Werkzeuge auf den Plan, mit denen sich solche ETL-Prozesse standardisieren und automatisieren ließen.

Mit der zunehmenden Verflechtung der Systeme erkannten immer mehr Unternehmen, dass Werkzeuge und Know-how für die zunehmende Zahl der Integrationsprojekte auf diese Weise höchst unwirtschaftlich genutzt wurden. Als erster Analyst hat Gartner dieses Dilemma erkannt und als Antwort darauf das Konzept des Integration Competency Centers (ICC) entwickelt, die Grundlage unternehmensweiter Datenintegration.

Cross Enterprise Integration

Aktuell lässt sich ein Trend beobachten, dass mehr und mehr Integrationsprojekte auch „Cross Enterprise“, also über Unternehmensgrenzen hinweg, stattfinden. Der Austausch von Daten zwischen heterogenen Systemen wird durch moderne Softwarelösungen von einer komplexen Herausforderung zu einer einfachen Softwarefunktion. Die Zukunft der Datenintegration liegt Experten zufolge aber im SaaS-Bereich (Software-as-a-Service). Durch „On Demand“-Funktionalität werden Kunden zukünftig die Integration ihrer Daten über das Internet buchen und abrufen können, ohne einen eigenen Server dafür betreiben zu müssen . Ausgelagerte Anwendungen können dadurch nach Bedarf mit herkömmlichen Systemen wie ERP-Anwendungen, Mainframes, Datenbanken und Kundenapplikationen integriert werden.

Eine Prognose sei erlaubt: In wenigen Jahren werden IT-Veteranen über die Probleme inkompatibler Systeme fachsimpeln wie über bernsteinfarbene Terminals, koffergroße Mobiltelefone oder zeichenbasierte Eingabe über Konsolen – als Relikte einer zum Glück überwundenen Technologie. (mha)