Grundlagenserie Business Intelligence

BI-Datenmanagement (Teil 2): Das Data Warehouse

Core Dataware Warehouse – Datenmodelle und Normalisierung

Ein drittes Merkmal von Core DWHs ist das zugrunde liegende Datenmodell bzw. Datenbanksystem. Meist werden relationale Datenbanksysteme eingesetzt sowie werkzeugunabhängige proprietäre Systeme.

Beide haben ihre spezifischen Vor- und Nachteile. Relationale Systeme sind gut etabliert, weil sie sicher, leistungsfähig und stabil sowie praktisch auf allen Hardware-Plattformen verfügbar sind. Zudem haben sie sich auch bei großen Datenvolumina und hohen Nutzerzahlen in der Praxis bewährt.

Normalerweise strebt man bei relationalen Datenbanken die volle Normalisierung an, also die dritte Codd’sche Normalform (vgl. den Artikel Datenmodelle). Nur so lassen sich Redundanzen und Anomalien vermeiden. Im BI-Kontext werden die Normalitätsstufen aber oft rückgängig gemacht oder gar nicht erst ausgeführt, was als „Denormalisierung“ bezeichnet wird.

Ressourcenhungrige Normalisierung: Eine voll normalisierte Datenbank erhöht auf Grund der vielen Tabellen Zugriffszeit und Speicherbedarf (Quelle: HDM Stuttgart)
Ressourcenhungrige Normalisierung: Eine voll normalisierte Datenbank erhöht auf Grund der vielen Tabellen Zugriffszeit und Speicherbedarf (Quelle: HDM Stuttgart)

Dies hat vor allem praktische Gründe. Mit abnehmender Normalisierung lassen sich nämlich auch die Datenbankzugriffe reduzieren, was zur Entlastung der Hardware und Software führt und das Antwortzeitverhalten verbessert. In Kauf genommen wird dabei ein Anstieg des Speicherplatzbedarf der denormalisierten Daten – Folge der redundanten Daten – sowie ein höherer Aufwand zur Erhaltung der Datenkonsistenz.

In den neunziger Jahren kam auch die vom Erfinder des relationalen Datenmodells, Edgar F. Codd, angestoßene Diskussion auf, ob relationale Systeme das Management generell überhaupt unterstützen können. Codd stand dieser Auffassung skeptisch gegenüber und schlug satt dessen physisch mehrdimensionale Datenhaltungssysteme vor, die eine höherer Performance und Flexibilität böten.

Doch mehrdimensionale Datensysteme sind für große Datenbestände nur in Ausnahmefällen angebracht: Sie sind nicht standardisiert, proprietär und eigenen sich nicht für hohe Nutzerzahlen. Zwar sind sie inzwischen relativ verbreitet, werden aber meist nicht als Infrastruktursysteme im Core DWH eingesetzt. In Data Marts werden sie hingegen häufig eingesetzt, da sie eine werkzeugspezifische, performanceoptimierte Datenhaltung erlauben.