Video-Schulung

eSeminar Business Intelligence, Lektion 2 - Datensammlung und -speicherung

Datenqualität

Bedenken Sie jedoch: Eine strategische Entscheidungsfindung können tagesaktuelle Daten kaum unterstützen. Um Trends zu erkennen und Prognosen zu erstellen, müssen die Daten beispielsweise langfristig gespeichert werden. Auch müssen unterschiedliche Komplexitätsstufen abgedeckt werden. All dies können die IT-Systeme in den Unternehmen nicht leisten.

Die Daten werden deshalb in spezielle Datensammlungen für genau diese Zwecke überführt. Vorher aber müssen die Rohdaten „behandelt“ und aufbereitet werden. Was ist damit gemeint?

Vor allem zwei Dinge. Zum einen müssen die Rohdaten bereinigt und standardisiert werden: Das heißt, Fehler und Doubletten sowie andere Qualitätsmängel müssen beseitigt werden. Zudem sollten die Daten in einen einheitlichen, konsistenten Zustand überführt werden. Das geschieht beispielsweise mit Data Profiling und Data Cleansing.

Beim Data Profiling werden Regeln und statistische Methoden zur Überprüfung von Datenbanken und Tabellen auf fehlerhafte Werte angewendet. Beim Data Cleansing werden Methoden zur Identifizierung, Standardisierung und Dublettenbeseitigung eingesetzt.

Extraction – Transformation - Loading

Der zweite wichtige Schritt bei der Datenaufbereitung nennt sich „Extraction“ – „Transformation“ – „Loading“, kurz ETL. Extraction bedeutet , dass die bereinigten Rohdaten themenspezifisch so extrahiert und zusammengefasst werden, dass sie dem Informationsbedürfnis des Managements entsprechen.

Transformation beruht vor allem auf der Filterung von Daten, der Harmonisierung und der Aggregation. Eine Harmonisierung ist etwa die themenbezogene Gruppierung von Daten nach Kunde, Produkt oder Organisationseinheit. Aggregation ist die Zusammenfassung von fein granulierten Daten, etwa der Umsatz von Kunde A in der Produktgruppe B im Jahr 2006.

Die Speicherung, das „Loading“, der so bereinigten und sortierten Daten geschieht in spezielle Datenbanken. Sie dienen einzig und allein dem Zweck, Entscheidungsprozesse zu unterstützen. Die zentrale Grundidee dabei ist, eine dauerhafte Sammlung von Daten für das Management aufzubauen. Genau dies leistet das Data Warehouse.