Grundlagenserie Business Intelligence

Business Intelligence (Teil 2): Datensammlung und Data Warehouses

23.01.2008 von Klaus Manhart

Interne und externe Unternehmensdaten bilden den Unterbau von BI-Systemen. Deren Zusammenstellung zu entscheidungsrelevanten Informationen ist eine hochkomplexe Angelegenheit. Data Warehouses, Data Marts und andere Technologien helfen dabei.

Die Sammlung, Speicherung und Aufbereitung von Daten ist der erste Schritt, wenn es um die Generierung management-relevanter Informationen geht. Sie ist Grundvoraussetzung für den Einsatz von BI-Analysesystemen und bildet quasi deren Unterbau.

In der Praxis kommen unternehmensrelevante Daten meistens nicht aus einem zentralen System, sondern sind auf verschiedene Subsysteme, oftmals redundant, verteilt. Die Abfrage nach bestimmten Informationen ist dadurch schwierig realisierbar und fehlerbehaftet, da verschiedene Datenbasen unterschiedliche Ergebnisse liefern können.

Die relevanten Daten aus diesen heterogenen, unternehmensinternen und –externen Quellen müssen also erst einmal sinnvoll zusammengestellt, bereinigt und geordnet werden, um eine Verknüpfung von Informationen und eine weitere Analyse zu erlauben.

Data Warehouses und deren Varianten übernehmen in diesem Schritt die entscheidende Rolle. Sie stellen die Daten für die weitere Verarbeitung bereit und sollen die Qualität, Integrität und Konsistenz des Datenmaterials gewährleisten.

Bildlich gesprochen geht es in diesem Beitrag um den „Keller des BI-Hauses“ und dem Zusammenspiel mit „dem Erdgeschoß“ (siehe Grafik). Die in mehreren Kellerabteilungen enthaltenen Daten müssen dabei über „Rohre“ in die Container im Erdgeschoß transportiert werden.

Datenbereitstellung: Unternehmensdaten werden im ersten Schritt in BI-Systeme überführt.

Operative und dispositive Daten

Der größte Teil an Daten, die im Unternehmen anfallen, entsteht intern, das heißt in den operativen Systemen. Diese im Tagesgeschäft erzeugten, operativen Unternehmensdaten sind in der Regel auf die Steuerung und Überwachung des Unternehmens ausgerichtet.

Operative Daten sind meist transaktionsorientiert und werden oft von Administrations- und Abrechnungssystemen generiert. Dazu gehören beispielsweise Daten, wie sie Warenwirtschaftssysteme, Buchhaltungsprogramme oder ERP-Systeme wie SAP erzeugen. Auch Auskunfts- und Bestellsysteme liefern operative Daten.

Solche tagesaktuellen Daten können eine strategische und operative Entscheidungsfindung kaum unterstützen. Hierfür müssten die Daten beispielsweise langfristig gespeichert werden, um Trends zu erkennen und Prognosen zu erstellen. Auch müssen unterschiedliche Komplexitätsstufen abgedeckt werden. All dies können die IT-Systeme in den Unternehmen nicht leisten.

Operative Daten müssen deshalb in einem ersten Schritt aufbereitet und in längerfristig gespeicherte Daten, so genannten dispositive Daten, überführt werden. Diese Daten stellen dann mehr oder weniger direkt Informationen für das Management bereit.

Oft handelt es sich bei dispositiven Daten um verdichtete, bereits transformierte und hoch aggregierte Daten. Sie können vom Management direkt als entscheidungsunterstützende Daten für unterschiedlichste Analyse-, Kontroll- und Steuerungszwecke eingesetzt werden. Die Tabelle fasst einige typische Merkmale operativer und dispositiver Daten zusammen.

Operative und dispositive Daten
	Merkmale operativer Daten	Merkmale dispositiver Daten
Ziel	Geschäftsprozesse abwickeln	Management-Unterstützung, Entscheidungsfindung
Ausrichtung	Tagesaktuelle Geschäftsdaten	Verdichtete, transfomierte Daten
Zeitlicher Bezug	Aktuell, zeitpunktbezogen	zeitraumbezogen
Zustand	Redundant, inkonsistent	Bereinigt, Konsistent
Update	Laufend	Fortschreibend

Neben unternehmensinternen Daten gehören aber auch externe Daten zu den Quellen für BI-Systeme. Dazu zählen beispielsweise Markt- und Meinungsumfragen, die Daten politischer Informationsdienste und von Wirtschaftsverbänden oder externe Datenbanken sowie das WWW.

Insgesamt ergibt sich damit eine bunte Vielfalt nicht nur von Datenarten, sondern auch von Datentypen, die BI-Systeme weiterverarbeiten müssen: Von Daten aus Altsystemen und operativen Systemen über Web-Seiten und Textdateien bis hin zu Grafiken und Videosequenzen.

Datenqualität und -integration

Ein wesentliches Problem bei der Bereitstellung der Unternehmensdaten ist deren Qualität. Operative Systeme wie Buchungs- oder Warenwirtschaftssysteme liefern nicht immer perfekte Daten. Oft bestehen gravierende Qualitätsmängel, etwa mehrfach vorkommende, fehlende oder falsch verknüpfte Daten. Manchmal sind diese auch einfach inhaltlich falsch. Solche Datenmängel machen sich oft erst in BI-Systemen bemerkbar.

Ein zweites Problem ist die Heterogenität der Datenquellen selbst. Im Normalfall liegen den Daten unterschiedliche Formate zu Grunde, die vor der Weiterverarbeitung vereinheitlicht werden müssen. Ziel dieser Datenintegration ist es, die Daten aus verschiedenen Vorsystemen für die BI-Systeme in einen einheitlichen, konsistenten Zustand zu überführen. Dabei müssen etwa Fehler wie unterschiedliche Attribut-Codierungen eliminiert werden oder Absatzdefinitionen festgelegt und vereinheitlicht werden.

Um ein einfaches Beispiel zu nennen: Die einzelnen Niederlassungen einer Firma können etwa für dasselbe Produkt verschiedene Artikelnummern vergeben. Bei der Zusammenführung der Daten würden sich dann Inkonsistenzen ergeben:

Inkonsistente Beispiel-Datenbank
Art. Nr.	Artikelbez.	Niederlassung, Land
02402	Bleistift, Härte 4	Niederlassung A, Schweiz
02401	Bleistift, Härte 4	Niederlassung B, BRD
7756463	Bleistift, Härte 4	Niederlassung C, Österreich

Bevor die Daten in weiterführende BI-Systeme geladen werden sollten sie deshalb in Vorsystemen und während des Datenintegrationsprozesses überprüft und standardisiert werden. Zur Überprüfung wird oft Data Profiling angewendet, zur Datenbereinigung und -standarisierung Data Cleansing.

Beim Data Profiling werden Regeln und statistische Methoden zur Überpüfung von Datenbanken und Tabellen auf fehlerhafte Werte angewendet. Beim Data Cleansing werden Methoden zur Identifizierung, Standardisierung und Dublettenbeseitigung eingesetzt. Data Profiling übernehmen beispielsweise die Warehouse Builder Profiling Option von Oracle oder DIME von Fuzzy Informatik. Letzteres bietet mit DataCare auch ein Tool für Data Cleansing.

Datentransformation - ETL

Die Datenbereinigung und –standardisierung, gelegentlich auch als Filterung bezeichnet, ist Teil eines umfassenderen Prozesses, der sich „Transformation“ nennt. Der Transformationsprozess hat die grundsätzliche Aufgabe, die internen und externen Daten in themenorientierte, „saubere“ und analysefähige Datenbanken zu überführen.

Die Transformation besteht - neben dem ersten Schritt, der eben erwähnten Bereinigung syntaktischer und inhaltlicher Defekte - aus drei weiteren, aufeinander folgenden Schritten:

Filterung
Harmonisierung
Aggregation
Anreicherung

Die auf die Filterung folgende Harmonisierung ist die betriebswirtschaftliche Abstimmung der Daten - etwa die themenbezogene Gruppierung nach Kunde, Produkt oder Organisationseinheit. Als Aggregation bezeichnet man die Zusammenfassung (Verdichtung) der gefilterten und harmonisierten Daten - etwa der Umsatz von Kunde A in der Produktgruppe B im Jahr C. Beim vierten Schritt, der Anreicherung, werden betriebswirtschaftliche Kenngrößen berechnet und in die Datenbasis integriert.

Diese Überführung übernehmen Transformationsprogramme. Sie extrahieren bzw. fassen die operativen Daten in themenorientierte Datenbestände zusammen, wodurch auch eine Reduzierung der Datenmenge erreicht wird. Die Konvertierung übernehmen Datenmanipulations- und Formatierungstools, wie zum Beispiel 4GL-Entwicklungssprachen.

Die Transformation findet oft bereits in einem Teilbereich eines Data Warehouses statt. Vor der eigentlichen Transformation werden die Daten aus den operativen Systemen in diesen Bereich extrahiert. Nach der Transformation werden die Daten weiter transportiert und in die zentrale Datenbank des Data Warehouse geladen (siehe Grafik). Aus den Bezeichnungen der Schritte „Extraction“, „Transformation“ und „Loading“ leitet sich der für diesen Vorgang häufig gebrauchte Terminus „ETL-Prozess“ ab.

Der ETL-Prozess: Die operativen Daten werden extrahiert, transformiert und ins Data Warehouse geladen (Quelle: SAP)

Die Speicherung der so bereinigten und sortierten Daten geschieht grundsätzlich im Data Warehouse. Das Konzept des Date Warehouse hat sich in den letzten Jahren als zentral für die gesamte BI erwiesen.

Data Warehouse

Data Warehouses (DWH) sind grundsätzlich der Ort mit der höchsten Datenqualität im Unternehmen. Ein DWH ist die zentrale Datensammlung, deren Inhalt sich aus Daten der eben angegebenen Quellen zusammensetzt. Die Speicherung erfolgt dabei meist in relationalen Datenbanken.

Data Warehouse: Im Data Warehouse werden die vorbereiteten Daten langfristig gespeichert

Der Schwerpunkt von DHWs liegt auf der Bereitstellung und Verarbeitung großer Datenmengen zur Durchführung von Auswertungen und Analysen. Sie dienen als einheitliche und möglichst konsistente Datenbasis für alle Arten von entscheidungsunterstützenden Systemen.

DHWs ermöglichen es, völlig unabhängig von den operativen Geschäftsprozessen, die aufbereiteten Daten in neue Zusammenhänge zu bringen. So können beispielsweise Informationen zur Steuerung und Kontrolle operativer Prozesse erlangt werden. Spezielle Analysetools erzeugen verschiedenen Sichten auf den nun dispositiven Datenbestand. Aus ihm lassen sich prinzipiell beliebige Auswertungen erstellen, die je nach Bedarf erwünscht sind.

Data Warehouses haben einige typische Merkmale. So ist ein DWH immer themenspezifisch an den Informationsbedürfnissen des Managements ausgerichtet. Dies können bestimmte Produkte, Produktgruppen, Kunden oder Märkte sein. Die Entscheidungsträger können so direkt Daten zu den sie interessierenden Kerngebieten recherchieren.

Ein zweites, wesentliches Merkmal ist der Zeitraumbezug. Während operative Daten etwa aus ERP-Systemen transaktionsorientiert und auf eine konkrete Ist-Situation zu einem bestimmten Zeitpunkt bezogen sind, repräsentieren Daten im DWH meist Zeiträume wie Tage, Wochen oder Monate. Im Extremfall kann der Zeithorizont bis zu 10 Jahren betragen, etwa um Trendanalysen über historische Verläufe durchzuführen.

Im Gegensatz zu operativen Systemen werden Daten im Data Warehouse drittens dauerhaft abgelegt. Die Informationssammlung in DWHs besteht also langfristig und steht für künftige Analysen zur Verfügung. Dabei muss überlegt werden, wie das Datenwachstum begrenzt werden kann. Dies erfolgt beispielsweise durch Aggregierung von Daten oder Auslagern in Archivsysteme.

Eine große Rolle bei DWHs spielt auch die Granularität der Daten. Die Granularität beschreibt den Detaillierungsgrad von Daten. Sehr detaillierte Daten haben eine niedrige Granularität, hoch verdichtete Daten eine entsprechend hohe Granularität. Verdichtung erfolgt beispielsweise durch Summeriung einzelner Datenobjekte, Bildung eines statistischen Mittelwertes oder durch Aggregation mehrere Objekte zu einem neuen.

Aus Sicht von IT-Technik und Management bestehen hier unterschiedliche Anforderungen. Während IT-technisch eine möglichst hohe Granularität erwünscht ist, weil sie Datenvolumen und Speicherplatz minimiert, ist aus Management-Sicht eine möglichst niedrige Granularität zu bevorzugen, weil damit flexiblere Auswertungen möglich sind.

Core Data Warehouse und Data Marts

Das Core Data Warehouse stellt die zentrale Datenbank innerhalb des DWH dar. Die Datenbank wird direkt aus den operativen internen und externen Quellen befüllt. Das Core DWH basiert in der Regel auf einer relationalen Datenbank und kann Datengrößen von mehreren Terabyte umfassen. Dies ist etwa bei kundenzentrierten Data Warehouses der Fall, die Daten aller Kunden über den gesamten Lebenszyklus möglichst detailliert vorhalten.

Das Core DWH stellt Daten nach einem ersten Transformationsprozess für unterschiedliche Auswertungszwecke bereit und sorgt dafür, dass sie an entsprechende Nutzergruppen weitergegeben werden.

Um das Handling mit der oft riesigen Core DWH zu vereinfachen werden oft Data Marts eingeführt. Data Marts sind Ausschnitte von Data Warehouses, kleinere Datenpools für Anwendungen, die spezifische Nutzergruppen wie bestimmte Abteilungen oder Aufgabenbereiche bedienen.

Der Vorteil liegt darin, dass nicht die komplette Datenbasis eines Unternehmens sofort abgebildet werden muss, sondern nur die Daten, die für Fragestellungen des jeweiligen Bereichs oder der jeweiligen Abteilung benötigt werden. Die Daten für Data Marts werden meist mit speziellen Transformationsprozessen aus dem Core Data Warehouse in kleine, überschaubare Einheiten extrahiert. Dies können beispielsweise alle relevanten Daten einer Region oder einer bestimmten Produktgruppe sein. Die manchmal als dezentrale Data Warehouse bezeichneten Marts erhöhen so die Effizienz, da die Auswertung Gigabyte großer Datenbestände sehr zeitaufwändig ist.

Operational Data Store

In neueren Data Warehouse-Ansätzen ist häufig zusätzlich ein spezieller Daten-Pool integriert – der Operational Data Store (ODS). Er kann als Vorstufe von DWHs aufgefasst werden. ODS beinhalten aktuelle Daten auf Transaktionsbasis, die verschiedenen operativen Quellsystemen entstammen und stellt sie für Anwendungs- und Auswertungsdienste bereit. Die Daten hierfür werden in der Regel mit Hilfe zusätzlicher Transformationsprozesse aus dem Core Data Warehouse extrahiert.

In den ODS wird meist direkt ein sehr kleiner und zeitpunktaktueller Teil entscheidungsrelevanter Daten übertragen. Diese Daten sind oft schon an die Anforderungen der Analysesysteme angepasst.

Für die spätere Analyse ist es wichtig, dass die Anwender wissen, was sich eigentlich hinter den jeweiligen Datenfeldern verbirgt. Die Informationen zu diesen Daten werden in „Metadaten“ bereitgestellt. Diese „Daten über Daten“ beschreiben die Datenstruktur der in Data Warehouses und Operational Data Stores gespeicherten Daten.

Metadaten dienen auch der Dokumentation der Informationsobjekte, insbesondere hinsichtlich ihrer Speicherparameter, Herkunft, Struktur, Zusammensetzung und inhaltlichen Beschreibung. Neben betriebswirtschaftlich relevanten Fragestellungen wie der Definition oder Kalkulationsvorschrift von Kennzahlen können auch technische Informationen wie Aktualisierungszeitpunkt oder Datenherkunft eines Reports bereitgestellt werden.

Informationen über Metadaten werden in separaten Meta-Datenbanken gespeichert und verwaltet. Sie enthalten einen Informationskatalog und eine Navigationshilfe. Der Katalog beschreibt die Informationsobjekte, die Navigationshilfe unterstützt das Navigieren in den Meta-Datenbeständen.

Die Grafik fasst alle vorgestellten Konzepte und deren Beziehungen untereinander noch einmal anschaulich zusammen.

Datenbereitstellung: Alle vorgestellten Konzepte im Überblick

Fazit

Konsistente, stimmige Daten bilden die Grundlage jeder erfolgreichen BI-Analyse. Data Warehouses bilden dabei das zentrale BI-Konzept, wenn es um die Sammlung und Bereitstellung entscheidungsrelevanter Daten geht. In deren Datenbanken wird das management-relevante Datenmaterial dauerhaft abgelegt.

Waren das Datenvolumen in den Data Warehouses in der Vergangenheit noch überschaubar, ist dies heute nicht mehr der Fall. Data Marts helfen, kleinere, übersichtliche und themenbezogenen Datenbestände zu schaffen, die effizienter zu verwalten sind.

Der vorliegende Artikel hat die wesentlichen Konzepte der Datenbereitstellung angerissen. Detailliertere Darstellungen zum ETL-Prozess, zu Data Warehouses, Data Marts, Operational Data Stores und anderen Technologien finden Sie im Fokus-Subchannel „Datenbereitstellung“. (ala)