Grundlagenserie Business Intelligence

BI-Datenmanagement (Teil 1): Datenaufbereitung durch den ETL-Prozess

Bevor BI-relevante Daten im Data Warehouse bereit gestellt werden können sind umfangreiche Bearbeitungsaktivitäten erforderlich. Im ETL-Prozess werden die operativen Systeme angezapft und in betriebswirtschaftlich interpretierbare Daten transformiert.

Operative Unternehmensdaten, wie sie im Tagesgeschäft anfallen, unterstützen die Geschäftsprozesse eines Unternehmens. Die Daten beispielsweise aus ERP-, Buchhaltungs- oder Warenwirtschaftssystemen sind ausschließlich auf die Steuerung und Überwachung des Tagesgeschäfts bezogen. Aufgrund dieser Ausrichtung spiegeln sie einen temporären Informationsstand wieder und werden normalerweise durch Folgetransaktionen im Zeitverlauf aktualisiert.

Analytische BI-Anwendungen setzen nur in Ausnahmefällen direkt auf den operativen Datenbeständen auf. In der Regel verlangen sie themenbezogene, integrierte Datensammlungen – etwa nach Kunde, Produkt oder Organisationseinheit. Dazu muss einerseits das aus Sicht des Managements gewünschte, meist aggregierte Datenmaterial dauerhaft über große Zeiträume abgelegt werden. Andererseits müssen große Datenmengen aus mehreren operationalen Datenbanken konsolidiert werden, die dann im Data Warehouse gespeichert werden.

Um Daten aus mehreren operativen Datenquellen zu vereinigen und aufzubereiten werden sie mittels gezielter Umwandlungsaktionen in managementrelevante Informationen überführt. Diese Aktion wird in drei Schritten als so genannter ETL-Prozess vollzogen. ETL bedeutet im einzelnen:

  • Extraktion (Extract) der relevanten Daten aus verschiedenen Quellen

  • Transformation (Transform) der Daten in das Schema und Format der Zieldatenbank

  • Laden (Load) der Daten in das Data Warehouse

Die Erstellung des ETL-Prozesses ist oft der aufwendigste Schritt bei der Data-Warehouse-Entwicklung. Er sollte nicht vernachlässigt werden, denn ein solide aufgebautes Data Warehouse ist nur mit einer qualitativ hochwertigen Datenbasis möglich.

Der ETL-Prozess: Die Daten werden aus den operativen Quellen extrahiert, transformiert und ins Data Warehouse geladen (Quelle: SAP)
Der ETL-Prozess: Die Daten werden aus den operativen Quellen extrahiert, transformiert und ins Data Warehouse geladen (Quelle: SAP)