Grundlagenserie Business Intelligence

Business Intelligence (Teil 2): Datensammlung und Data Warehouses

Datenqualität und -integration

Ein wesentliches Problem bei der Bereitstellung der Unternehmensdaten ist deren Qualität. Operative Systeme wie Buchungs- oder Warenwirtschaftssysteme liefern nicht immer perfekte Daten. Oft bestehen gravierende Qualitätsmängel, etwa mehrfach vorkommende, fehlende oder falsch verknüpfte Daten. Manchmal sind diese auch einfach inhaltlich falsch. Solche Datenmängel machen sich oft erst in BI-Systemen bemerkbar.

Ein zweites Problem ist die Heterogenität der Datenquellen selbst. Im Normalfall liegen den Daten unterschiedliche Formate zu Grunde, die vor der Weiterverarbeitung vereinheitlicht werden müssen. Ziel dieser Datenintegration ist es, die Daten aus verschiedenen Vorsystemen für die BI-Systeme in einen einheitlichen, konsistenten Zustand zu überführen. Dabei müssen etwa Fehler wie unterschiedliche Attribut-Codierungen eliminiert werden oder Absatzdefinitionen festgelegt und vereinheitlicht werden.

Um ein einfaches Beispiel zu nennen: Die einzelnen Niederlassungen einer Firma können etwa für dasselbe Produkt verschiedene Artikelnummern vergeben. Bei der Zusammenführung der Daten würden sich dann Inkonsistenzen ergeben:

Inkonsistente Beispiel-Datenbank

Art. Nr.

Artikelbez.

Niederlassung, Land

02402

Bleistift, Härte 4

Niederlassung A, Schweiz

02401

Bleistift, Härte 4

Niederlassung B, BRD

7756463

Bleistift, Härte 4

Niederlassung C, Österreich

Bevor die Daten in weiterführende BI-Systeme geladen werden sollten sie deshalb in Vorsystemen und während des Datenintegrationsprozesses überprüft und standardisiert werden. Zur Überprüfung wird oft Data Profiling angewendet, zur Datenbereinigung und -standarisierung Data Cleansing.

Beim Data Profiling werden Regeln und statistische Methoden zur Überpüfung von Datenbanken und Tabellen auf fehlerhafte Werte angewendet. Beim Data Cleansing werden Methoden zur Identifizierung, Standardisierung und Dublettenbeseitigung eingesetzt. Data Profiling übernehmen beispielsweise die Warehouse Builder Profiling Option von Oracle oder DIME von Fuzzy Informatik. Letzteres bietet mit DataCare auch ein Tool für Data Cleansing.