Grundlagenserie Business Intelligence

BI-Datenmanagement (Teil 1): Datenaufbereitung durch den ETL-Prozess

Transformation – 2. Schritt: Harmonisierung

Der zweite Transformationsschritt nach der Filterung ist die Harmonisierung der Daten. Hierbei werden die gefilterten und bereinigten Daten zusammengeführt. Vor allem drei Problemklassen müssen hier angegangen werden: Erstens, das Abgleichen von Kodierungen, Synonymen und Homonymen, zweitens, das Auflösen von Schlüsseldisharmonien und drittens, die betriebswirtschaftliche Harmonisierung.

Was beim Abgleichen von Kodierungen, Synonymen und Homonymen passiert, lässt sich an folgenden Beispielen veranschaulichen:

  • Einzelne Datenbestände können unterschiedlich kodiert sein. So können Attribute wie Geschlecht in Datenquelle 1 als „M“/“W“ kodiert sein, in Datenquelle 2 als 0-1-Variable.

  • Unterschiedliche Attributnamen können die gleiche Bedeutung haben (Synonymie). Beispielsweise kann in Datenquelle 1 für den Namen von Betriebsmitarbeitern das Attribut „Personal“ vorgesehen sein, in Datenquelle 2 aber „Mitarbeiter“.

  • Umgekehrt können gleiche Attributnamen unterschiedliche Bedeutungen haben (Homonymie). In Datenquelle 1 kann „Partner“ beispielsweise den Namen von Kunden bezeichnen, in Datenquelle 2 den Namen von Lieferanten

In allen drei Fällen müssen die Daten harmonisiert werden. Im ersten Fall muss der Attributwert einheitlich z.B. auf 0-1-Werte festgelegt werden, im zweiten Fall ist ein identischer Attributname zu wählen und im dritten Fall ein unterschiedlicher Attributname.

Auch hier werden für den Abgleich in der Regel Mapping Tables implementiert, die die gefilterten Dateien über Namensabgleichungen und Kodierungsabstimmungen zu themenorientierten Datensammlungen zusammenführen.