Video-Schulung

eSeminar Business Intelligence, Lektion 2 - Datensammlung und -speicherung

11.01.2008

Fast alle Unternehmen sind heute mit steigender Datenflut konfrontiert. Gleichzeitig wird es immer schwieriger, trotz Datenfülle an relevante Informationen zu kommen. Viele Firmen besitzen riesige Pools von Datensätzen, können dies oft jedoch nicht sinnvoll nutzen. Sie sehen – bildlich gesprochen – „den Wald vor lauter Bäumen nicht“.

Business Intelligence soll diesem Dilemma ein Ende bereiten. Dazu gehört es, wichtige Informationen aus dem Datengebirge zu filtern, sie für das Unternehmen mit nutzbaren Wissen anzureichern und so eine Wissensgrundlage zu schaffen, auf der sich gesicherte strategische Entscheidungen fällen lassen.

Video-Schulung: Für das kostenlose eSeminar müssen Sie sich nur noch registrieren. Klicken Sie einfach auf das Bild!

Die Sammlung, Speicherung und Aufbereitung von Daten ist der erste Schritt, wenn daraus management-relevante Informationen herausdestilliert werden sollen. Sie ist Grundvoraussetzung für den Einsatz von BI-Analysesystemen und bildet deren Unterbau.

Datenherkunft

Zunächst einmal: Woher kommen die Daten eigentlich. Und: Um welche Art von Daten handelt es sich dabei? Eine Datenquelle - wohl die wichtigste - sind interne Unternehmensdaten. Das sind mehr oder weniger im Tagesgeschäft anfallenden Daten, wie sie von gängigen IT-Systemen produziert werden. Dazu gehören beispielsweise Daten aus Warenwirtschaftssystemen, Buchhaltungsprogrammen oder ERP-Systemen wie SAP. Auch Auskunfts- und Bestellsysteme gehören dazu.

Neben unternehmensinternen Daten liefern auch externe Daten Material für BI-Systeme: Markt- und Meinungsumfragen etwa, die Daten politischer Informationsdienste und von Wirtschaftsverbänden oder externe Datenbanken sowie das WWW.

Insgesamt ergibt sich damit eine bunte Vielfalt nicht nur von Datenarten, sondern auch von Datentypen, die BI-Systeme weiterverarbeiten müssen: Von Daten aus Altsystemen und operativen Systemen über Web-Seiten und Textdateien bis hin zu Grafiken und Videosequenzen.

Datenqualität

Bedenken Sie jedoch: Eine strategische Entscheidungsfindung können tagesaktuelle Daten kaum unterstützen. Um Trends zu erkennen und Prognosen zu erstellen, müssen die Daten beispielsweise langfristig gespeichert werden. Auch müssen unterschiedliche Komplexitätsstufen abgedeckt werden. All dies können die IT-Systeme in den Unternehmen nicht leisten.

Die Daten werden deshalb in spezielle Datensammlungen für genau diese Zwecke überführt. Vorher aber müssen die Rohdaten „behandelt“ und aufbereitet werden. Was ist damit gemeint?

Vor allem zwei Dinge. Zum einen müssen die Rohdaten bereinigt und standardisiert werden: Das heißt, Fehler und Doubletten sowie andere Qualitätsmängel müssen beseitigt werden. Zudem sollten die Daten in einen einheitlichen, konsistenten Zustand überführt werden. Das geschieht beispielsweise mit Data Profiling und Data Cleansing.

Beim Data Profiling werden Regeln und statistische Methoden zur Überprüfung von Datenbanken und Tabellen auf fehlerhafte Werte angewendet. Beim Data Cleansing werden Methoden zur Identifizierung, Standardisierung und Dublettenbeseitigung eingesetzt.

Extraction – Transformation - Loading

Der zweite wichtige Schritt bei der Datenaufbereitung nennt sich „Extraction“ – „Transformation“ – „Loading“, kurz ETL. Extraction bedeutet , dass die bereinigten Rohdaten themenspezifisch so extrahiert und zusammengefasst werden, dass sie dem Informationsbedürfnis des Managements entsprechen.

Transformation beruht vor allem auf der Filterung von Daten, der Harmonisierung und der Aggregation. Eine Harmonisierung ist etwa die themenbezogene Gruppierung von Daten nach Kunde, Produkt oder Organisationseinheit. Aggregation ist die Zusammenfassung von fein granulierten Daten, etwa der Umsatz von Kunde A in der Produktgruppe B im Jahr 2006.

Die Speicherung, das „Loading“, der so bereinigten und sortierten Daten geschieht in spezielle Datenbanken. Sie dienen einzig und allein dem Zweck, Entscheidungsprozesse zu unterstützen. Die zentrale Grundidee dabei ist, eine dauerhafte Sammlung von Daten für das Management aufzubauen. Genau dies leistet das Data Warehouse.

Data Warehouse

Ein Data Warehouse ist die zentrale Datensammlung, deren Inhalt sich aus den bearbeiteten Daten der eben angegebenen Quellen zusammensetzt. Die Speicherung erfolgt dabei meist in relationalen Datenbanken.

Data Warehouses haben einige typische Merkmale. So ist ein DWH immer themenspezifisch an den Informationsbedürfnissen des Managements ausgerichtet. Dies können bestimmte Produkte, Produktgruppen, Kunden oder Märkte sein. Die Entscheidungsträger können so direkt Daten zu den sie interessierenden Kerngebieten recherchieren.

Ein zweites Merkmal eines Data Warehouses ist der Zeitraumbezug. Während Daten etwa aus ERP-Systemen transaktionsorientiert und auf eine konkrete Ist-Situation mit einem bestimmten Zeitpunkt bezogen sind, repräsentieren Daten im DWH meist Zeiträume wie Tage, Wochen oder Monate. Im Extremfall kann der Zeithorizont bis zu 10 Jahren betragen, etwa um Trendanalysen über historische Daten durchzuführen.

Im Gegensatz zu den normalen IT-Systemen werden Daten im Data Warehouse dauerhaft abgelegt. Die Informationssammlung in Data Warehouses besteht also langfristig und steht für künftige Analysen zur Verfügung. Dabei muss überlegt werden, wie das Datenwachstum begrenzt werden kann. Dies erfolgt beispielsweise durch Aggregierung von Daten oder Auslagern in Archivsysteme.

Data Marts

Im Kern besteht ein Data Warehouse aus einer zentralen, relationalen Datenbank, dem Core Data Warehouse. Das Core Data Warehouse kann Datengrößen von mehreren TByte umfassen. Dies ist etwa bei kundenzentrierten Data Warehouses der Fall, die Daten aller Kunden über den gesamten Lebenszyklus möglichst detailliert vorhalten.

Um das Handling mit der oft riesigen Core Data Warehouses zu vereinfachen werden oft Data Marts eingeführt. Data Marts sind Ausschnitte von Data Warehouses, kleinere Datenpools für Anwendungen, die spezifische Nutzergruppen wie bestimmte Abteilungen, Filialen oder Aufgabenbereiche bedienen.

Neben den eigentlichen Daten spielen im BI-Umfeld auch Metadaten eine wichtige Rolle. Diese „Daten über Daten“ beschreiben die Datenstruktur der in Data Warehouses gespeicherten Daten. Sie dienen beispielsweise zur Dokumentation der Informationsobjekte, zur Kennzeichnung ihrer Herkunft, Struktur und Zusammensetzung.

So, das waren die wichtigsten Facts zur Datensammlung und –speicherung. Im nächsten Video zeigen wir Ihnen, wie die Daten analysiert werden.