Grundlagenserie Business Intelligence
BI-Datenmanagement (Teil 2): Das Data Warehouse
Das Data Warehouse steht am Ende des ETL-Prozesses. Die dort bereinigten und aufbereiteten operativen Unternehmensdaten werden nach Abschluss in das Data Warehouse (DWH) geladen. Teile des ETL-Prozesses laufen dabei oft schon im Data Warehouse ab. In jedem Fall bildet das DWH eine konsistente, im Idealfall unternehmensweite Datenbasis und stellt große Datenmengen für die Durchführung von Auswertungen und Analysen wie etwa Data Mining bereit.
Im Vordergrund steht beim DWH der Gedanke der Integration und Separation. Die Daten werden aus verteilten, unterschiedlich strukturierten Datenbeständen in ein zentrales Datenlager integriert und ermöglichen so eine globale Sicht auf die Quelldaten. Gleichzeitig werden diese Daten von den operativen, tagesaktuellen Unternehmensdaten separiert und bilden eine eigene, stringente und auf bestimmte Anforderungen hin zugeschnittene Basis.
Oft wird der Begriff des Data Warehouse im Sinn von „Daten-Warenhaus“ verwendet. Dabei steht der Term „Warehouse“ genau genommen für „Lagerhaus“ oder „Speicher“. Dennoch ist das Bild eines Warenhauses oder Handelshauses passend, wenn man den Datenfluss im Unternehmen mit dem Warenfluss im Handel vergleicht.
Der Begriff des Data Warehouses wurde 1993 von dem US-Berater W.H.Inmon geprägt. Er hat DWHs mit den Merkmalen Subjektorientierung, Integration, Zeitraumbezug und Nicht-Volatilität charakterisiert, wie sie bereits im einführenden Artikel erläutert wurden.
Ein konkretes Produkt, etwa eine bestimmte Software, ist ein Data Warehouse nicht. Vielmehr handelt es sich beim DWH eher um ein Konzept. Dessen Umsetzung ist in der Praxis oft ein langwieriger, kontinuierlicher Prozess, der auch als „Data Warehousing“ bezeichnet wird. Als zentrales Erfolgskriterium gilt dabei immer der Nutzen für die Anwender.