Grundlagenserie Business Intelligence

BI-Datenmanagement (Teil 1): Datenaufbereitung durch den ETL-Prozess

Filterung - Drei Klassen von Datenmängeln

Mängel der 1. Klasse sind grundsätzlich automatisch erkennbar und durch bestimmte Algorithmen behebbar. Beispielsweise können auf syntaktischer Ebene interne Format-, Steuer- und Sonderzeichen während der Extraktion identifiziert und durch Zuordnungstabellen (Mapping-Tables) in den extrahierten Daten bearbeitet werden. Analoges gilt für semantische Fehler. Wurden beispielsweise bei der Übertragung von Umsatzdaten einzelne Filialen vergessen, können diese durch Äquivalenzwerte wie monatliche Planwerte oder Ist-Werte des Vormonates ergänzt werden.

Mängel der 2. Klasse können ebenfalls automatisch erkannt werden, müssen aber manuell von Technikern oder Betriebswirten korrigiert werden. Bei syntaktischen Mängeln sind dies etwa bislang nicht berücksichtigte Syntaxvarianten in den operativen Datenquellen. Künftig können diese dann automatisiert behandelt werden.

Auf semantischer Ebene können automatisierte Plausibilitätskontrollen und Wertebereichsüberprüfungen ungültige Datenfelder entdecken. Beispielsweise durch Vergleich von Bilanz- und Kontrollsummen. Je nach Schwere des Fehlers müssen eventuell auch die operativen Quellen korrigiert werden.

Während syntaktische Mängel immer automatisiert erfasst werden können, trifft dies nicht auf semantische Mängel zu. Mängel der 3. Klasse betreffen deshalb ausschließlich semantische Fehler. Dies sind alle Mängel, die sich nicht durch die Prüfverfahren von Klasse-2-Fehlern entdecken lassen, also weder durch Plausibilitäts- noch Wertebereichprüfungen. Vielmehr lassen sich diese Fehler nur durch betriebswirtschaftliche Experten identifizieren. Auch hier müssen eventuell die operativen Quellen korrigiert werden.

Datenbereinigung: Fehlende Attributwerte können automatisch durch Planwerte oder ältere Ist-Werte ergänzt werden (Quelle: Data Integrator, Business Objects)
Datenbereinigung: Fehlende Attributwerte können automatisch durch Planwerte oder ältere Ist-Werte ergänzt werden (Quelle: Data Integrator, Business Objects)