Grundlagenserie Business Intelligence

Business Intelligence (Teil 3): Datenmodellierung – Relationale und Multidimensionale Modelle

Das Snowflake-Schema

Eine Verbesserung ist durch das dem Star-Schema verwandte Snowflake-Schema möglich. Beim Snowflake-Schema bleibt die Faktentabelle unverändert, die Dimensionen werden jedoch verfeinert, indem sie klassifiziert oder normalisiert werden.

Letztendlich werden die Dimensionstabellen dabei um die Attribute erweitert. Damit wird jede Ausprägung einer Dimension in einer eigenen Tabelle dargestellt. Durch diese Weiterverzweigung des Datenmodells entsteht die Form einer Schneeflocke, was dem Entwurfsmuster den Namen verleiht.

Snowflake-Schema: Fakt- und Dimensionstabellen bilden eine schneeflockenförmige Struktur. (Quelle: www.2cool4u.ch)
Snowflake-Schema: Fakt- und Dimensionstabellen bilden eine schneeflockenförmige Struktur. (Quelle: www.2cool4u.ch)

Ein Schneeflockenschema führt also zu kleineren und besser strukturierten Datenmengen. Dies hat jedoch auch Nachteile: Bedingt durch die feinere Strukturierung sind die Daten zwar weniger redundant als in einem Star-Schema, die Zusammenhänge sind jedoch komplexer. So müssen die mehrstufigen Dimensionstabellen wieder über Join-Abfragen verknüpft werden. Dies führt unter Umständen zu längeren Abfragezeiten.

Die folgende Abbildung zeigt das oben vorgestellte Star-Schema der Profitabilitätsanalyse von Organisationseinheiten als Snowflake-Schema.

Snowflake-Schema: Im Unterschied zum Star-Schema werden die Dimensionstabellen weiter verfeinert und normalisiert. (Quelle: www.2cool4u.ch)
Snowflake-Schema: Im Unterschied zum Star-Schema werden die Dimensionstabellen weiter verfeinert und normalisiert. (Quelle: www.2cool4u.ch)

Der Übergang von der Star-Modellierung zur Snowflake-Modellierung ist fließend. Beide Modelle werden auch kontrovers diskutiert, ein einheitliches Konzept ist mit beiden Modellen nicht verbunden.

Von beiden Modellen existieren diverse Varianten und Abarten wie das Dimension Modelling nach Kimball, Fact/Constellation Schemata oder das Simple Star und Multiple Star Schema, die alle hier nicht weiter behandelt werden können.

Relativ bedeutend sind Galaxien. Galaxien sind Ansammlungen von Star-Schemata, wie sie in Data Marts zu unterschiedlichen Analysezwecken auftreten. Da diese Ansammlung oft auf strukturidentischen Dimensionstabellen beruht ist die mehrfache Verwendung einzelner Dimensionstabellen aus Konsistenzgründen zu empfehlen. Eine Galaxie integriert damit mehrere Star-Schemata und bietet damit viele Vorteile - wie eine geringe Anzahl von Join-Operationen oder einen geringeren Wartungsaufwand des Data Warehouses.