Grundlagenserie Business Intelligence

Business Intelligence (Teil 2): Datensammlung und Data Warehouses

Datentransformation - ETL

Die Datenbereinigung und –standardisierung, gelegentlich auch als Filterung bezeichnet, ist Teil eines umfassenderen Prozesses, der sich „Transformation“ nennt. Der Transformationsprozess hat die grundsätzliche Aufgabe, die internen und externen Daten in themenorientierte, „saubere“ und analysefähige Datenbanken zu überführen.

Die Transformation besteht - neben dem ersten Schritt, der eben erwähnten Bereinigung syntaktischer und inhaltlicher Defekte - aus drei weiteren, aufeinander folgenden Schritten:

  1. Filterung

  2. Harmonisierung

  3. Aggregation

  4. Anreicherung

Die auf die Filterung folgende Harmonisierung ist die betriebswirtschaftliche Abstimmung der Daten - etwa die themenbezogene Gruppierung nach Kunde, Produkt oder Organisationseinheit. Als Aggregation bezeichnet man die Zusammenfassung (Verdichtung) der gefilterten und harmonisierten Daten - etwa der Umsatz von Kunde A in der Produktgruppe B im Jahr C. Beim vierten Schritt, der Anreicherung, werden betriebswirtschaftliche Kenngrößen berechnet und in die Datenbasis integriert.

Diese Überführung übernehmen Transformationsprogramme. Sie extrahieren bzw. fassen die operativen Daten in themenorientierte Datenbestände zusammen, wodurch auch eine Reduzierung der Datenmenge erreicht wird. Die Konvertierung übernehmen Datenmanipulations- und Formatierungstools, wie zum Beispiel 4GL-Entwicklungssprachen.

Die Transformation findet oft bereits in einem Teilbereich eines Data Warehouses statt. Vor der eigentlichen Transformation werden die Daten aus den operativen Systemen in diesen Bereich extrahiert. Nach der Transformation werden die Daten weiter transportiert und in die zentrale Datenbank des Data Warehouse geladen (siehe Grafik). Aus den Bezeichnungen der Schritte „Extraction“, „Transformation“ und „Loading“ leitet sich der für diesen Vorgang häufig gebrauchte Terminus „ETL-Prozess“ ab.

Der ETL-Prozess: Die operativen Daten werden extrahiert, transformiert und ins Data Warehouse geladen (Quelle: SAP)
Der ETL-Prozess: Die operativen Daten werden extrahiert, transformiert und ins Data Warehouse geladen (Quelle: SAP)

Die Speicherung der so bereinigten und sortierten Daten geschieht grundsätzlich im Data Warehouse. Das Konzept des Date Warehouse hat sich in den letzten Jahren als zentral für die gesamte BI erwiesen.