Grundlagenserie Business Intelligence

BI-Datenmanagement (Teil 1): Datenaufbereitung durch den ETL-Prozess

Transformation – 1. Schritt: Filterung

Zentrale Aufgabe des ETL-Prozesses ist die Datentransformation. Hierbei werden die Ausgangsdaten an das geforderte Zielschema angepasst. Die Transformation setzt sich aus den vier Teilprozessen Filterung, Harmonisierung, Aggregation und Anreicherung zusammen. Diese Schritte werden nun etwas ausführlicher vorgestellt. Die folgende Tabelle liefert hierzu den ersten Überblick.

Bestandteile des Transformationsprozesses

Filterung

Extraktion und Bereinigung syntaktischer und inhaltlicher Defekte der Daten

Harmonisierung

Betriebswirtschafliche Abstimmung der gefilterten Daten

Aggregation

Verdichtung der gefilterten und harmonisierten Daten

Anreicherung

Berechnung und Speicherung betriebswirtschaftlicher Kennzahlen

Beim Teilprozess Filterung geht es um die Bereinigung der extrahierten Daten von syntaktischen und semantischen Mängeln. Syntaktische Mängel sind formale Fehler wie falsche Steuerzeichen, semantische Mängel Fehler betriebswirtschaftlich-inhaltlicher Art, etwa offensichtlich falsche Umsatzzahlen.

Die Literatur unterscheidet weiterhin Mängel der 1., 2. und 3. Klasse. Mängel der 1. Klasse lassen sich automatisch erkennen und während des Extraktionsvorgang auch automatisch korrigieren. Bei Mängeln der 2. Klasse erfolgt zwar die Defekterkennung automatisch, die Korrektur muss aber manuell nach dem Extraktionsvorgang vorgenommen werden. Mängel der 3. Klasse schließlich können ausschließlich manuell erkannt und korrigiert werden.

Mängelklassifikation

Bereinigung

1.Klasse

2. Klasse

3. Klasse

Automatische Erkennung und automatische Korrektur

Automatische Erkennung und manuelle Korrektur

Manuelle Erkennung und manuelle Korrektur

Syntaktische Mängel

Bekannte Formatanpassungen

Erkennbare Formatinkompatibilitäten

-

Semantische Mängel

Fehlende Datenwerte

Ausreißerwerte / unstimmige Wertekonstellationen

Unerkannte semantische Fehler in operativen Quellen

Quelle: Kemper/Finger: Transformation operativer Daten, in: Chamoni/Gluchowski: Analytische Informationssysteme, Springer