Grundlagenserie Business Intelligence
Business Intelligence (Teil 2): Datensammlung und Data Warehouses
Datentransformation - ETL
Die Datenbereinigung und –standardisierung, gelegentlich auch als Filterung bezeichnet, ist Teil eines umfassenderen Prozesses, der sich „Transformation“ nennt. Der Transformationsprozess hat die grundsätzliche Aufgabe, die internen und externen Daten in themenorientierte, „saubere“ und analysefähige Datenbanken zu überführen.
Die Transformation besteht - neben dem ersten Schritt, der eben erwähnten Bereinigung syntaktischer und inhaltlicher Defekte - aus drei weiteren, aufeinander folgenden Schritten:
-
Filterung
-
Harmonisierung
-
Aggregation
-
Anreicherung
Die auf die Filterung folgende Harmonisierung ist die betriebswirtschaftliche Abstimmung der Daten - etwa die themenbezogene Gruppierung nach Kunde, Produkt oder Organisationseinheit. Als Aggregation bezeichnet man die Zusammenfassung (Verdichtung) der gefilterten und harmonisierten Daten - etwa der Umsatz von Kunde A in der Produktgruppe B im Jahr C. Beim vierten Schritt, der Anreicherung, werden betriebswirtschaftliche Kenngrößen berechnet und in die Datenbasis integriert.
Diese Überführung übernehmen Transformationsprogramme. Sie extrahieren bzw. fassen die operativen Daten in themenorientierte Datenbestände zusammen, wodurch auch eine Reduzierung der Datenmenge erreicht wird. Die Konvertierung übernehmen Datenmanipulations- und Formatierungstools, wie zum Beispiel 4GL-Entwicklungssprachen.
Die Transformation findet oft bereits in einem Teilbereich eines Data Warehouses statt. Vor der eigentlichen Transformation werden die Daten aus den operativen Systemen in diesen Bereich extrahiert. Nach der Transformation werden die Daten weiter transportiert und in die zentrale Datenbank des Data Warehouse geladen (siehe Grafik). Aus den Bezeichnungen der Schritte „Extraction“, „Transformation“ und „Loading“ leitet sich der für diesen Vorgang häufig gebrauchte Terminus „ETL-Prozess“ ab.
Die Speicherung der so bereinigten und sortierten Daten geschieht grundsätzlich im Data Warehouse. Das Konzept des Date Warehouse hat sich in den letzten Jahren als zentral für die gesamte BI erwiesen.