Grundlagenserie Business Intelligence

BI-Datenmanagement (Teil 2): Das Data Warehouse

Das Core Data Warehouse

Die zentrale Datenhaltungskomponente und der Kern des DWH ist das Core Data Warehouse mit seiner Datenbasis. Sie enthält die aktuellen und historischen Daten aus allen eingebundenen Unternehmensbereichen in verschiedenen Verdichtungsformen. Hier werden alle Daten zur Weitergabe an eine Vielzahl von Benutzern bereit gestellt.

Vor allem drei Funktionen sollten vom Core DWH erfüllt werden: Erstens, eine Sammel- und Integrationsfunktion. Sie sorgt dafür, dass alle für die Analyse wichtigen Daten in einem zentralen Datenlager bereitgestellt werden. Zweitens, eine Distributionsfunktion. Diese ist dafür zuständig, die Daten eventuell über nachgeschaltete Data Marts zu verteilen. Und drittens eine Auswertungsfunktion. Dabei wird die Datenbasis bereits direkt für Analysen genutzt.

Um diese Funktionen zu erfüllen müssen einige Gestaltungsrichtlinien beachtet und bei der Konzeption festgelegt werden. Dies betrifft vor allem die Datenverdichtung, die Partitionierung und das Datenmodell.

Der Begriff der Datenverdichtung bzw. Granularität wurde bereits des öfteren erwähnt. Daten können in verschiedenen Verdichtungs- bzw. Detallierungsgraden gespeichert werden. Die Speicherung von Summenwerten statt der Einzelwerte führt beispielsweise zu weniger detaillierten Daten. Wenig detaillierte Daten haben eine hohe Granularität, mit steigender Detaillierung wird eine geringere Granularität erreicht.

Aus betriebswirtschaftlicher Sicht ist eine starke Detaillierung der Daten erstrebenswert, da unterschiedliche Analysebedürfnisse bedient werden müssen. Aus IT-Sicht jedoch ist starke Detaillierung nachteilig, da dies IT-Ressourcen wie Speicherbedarf und Verarbeitungsgeschwindigkeit nachteilig beeinflusst.

In der Praxis wird deshalb oft mehrstufige Granularität eingesetzt. Dabei legt man zeitabhängig verschiedene Granularitätsgrade fest. Neuere Daten haben dabei eine niedrige Granularität also eine starke Detailliertheit, ältere Daten eine höhere Granularität bzw. schwächere Datailliertheit. So können mit den aktuellen Daten detaillierte, zeitnahe Auswertungen und Analysen vorgenommen werden. Nach einer bestimmten Zeit, etwa ein oder zwei Monaten, werden die stark detaillierten Daten verdichtet und archiviert.