Grundlagenserie Business Intelligence
BI-Datenmanagement (Teil 1): Datenaufbereitung durch den ETL-Prozess
Transformation – 1. Schritt: Filterung
Zentrale Aufgabe des ETL-Prozesses ist die Datentransformation. Hierbei werden die Ausgangsdaten an das geforderte Zielschema angepasst. Die Transformation setzt sich aus den vier Teilprozessen Filterung, Harmonisierung, Aggregation und Anreicherung zusammen. Diese Schritte werden nun etwas ausführlicher vorgestellt. Die folgende Tabelle liefert hierzu den ersten Überblick.
Filterung |
Extraktion und Bereinigung syntaktischer und inhaltlicher Defekte der Daten |
Harmonisierung |
Betriebswirtschafliche Abstimmung der gefilterten Daten |
Aggregation |
Verdichtung der gefilterten und harmonisierten Daten |
Anreicherung |
Berechnung und Speicherung betriebswirtschaftlicher Kennzahlen |
Beim Teilprozess Filterung geht es um die Bereinigung der extrahierten Daten von syntaktischen und semantischen Mängeln. Syntaktische Mängel sind formale Fehler wie falsche Steuerzeichen, semantische Mängel Fehler betriebswirtschaftlich-inhaltlicher Art, etwa offensichtlich falsche Umsatzzahlen.
Die Literatur unterscheidet weiterhin Mängel der 1., 2. und 3. Klasse. Mängel der 1. Klasse lassen sich automatisch erkennen und während des Extraktionsvorgang auch automatisch korrigieren. Bei Mängeln der 2. Klasse erfolgt zwar die Defekterkennung automatisch, die Korrektur muss aber manuell nach dem Extraktionsvorgang vorgenommen werden. Mängel der 3. Klasse schließlich können ausschließlich manuell erkannt und korrigiert werden.
Bereinigung |
1.Klasse |
2. Klasse |
3. Klasse |
Automatische Erkennung und automatische Korrektur |
Automatische Erkennung und manuelle Korrektur |
Manuelle Erkennung und manuelle Korrektur |
|
Syntaktische Mängel |
Bekannte Formatanpassungen |
Erkennbare Formatinkompatibilitäten |
- |
Semantische Mängel |
Fehlende Datenwerte |
Ausreißerwerte / unstimmige Wertekonstellationen |
Unerkannte semantische Fehler in operativen Quellen |
Quelle: Kemper/Finger: Transformation operativer Daten, in: Chamoni/Gluchowski: Analytische Informationssysteme, Springer |