Grundlagenserie Business Intelligence

BI-Datenmanagement (Teil 1): Datenaufbereitung durch den ETL-Prozess

Extraktion

Der erste Schritt des ETL-Prozesses ist die Extraktion. In diesem Anfangsschritt werden die Daten aus den Quellsystemen ausgewählt und für den folgenden Transformationsvorgang vorbereitet. In der Regel wird bei der Extraktion lediglich ein Ausschnitt aus den Quelldaten selektiert.

Die Quellen können aus verschiedenen Informationssystemen mit unterschiedlichen Datenformaten und –strukturen bestehen. Nur im Idealfall sind die Daten in relationalen Datenbanken abgelegt. Oftmals trifft man jedoch auf andere Datenbanksysteme oder auch unstrukturierte Textdaten, die sich nur schwer einlesen lassen.

In Zusammenarbeit mit den Administratoren der operativen Datensysteme ist zu prüfen, ob direkte Durchgriffsmöglichkeiten oder Exportverfahren verfügbar sind. ETL-Tools, wie sie am Ende des Artikel vorgestellt werden, können dabei helfen: Sie ermöglichen den Zugriff auf die vielfältigen Datenformate.

Sofern native Treiber zur Verfügung stehen kann durch das eingesetzte ETL-Tool direkt auf die Datenbanken zugegriffen werden. Wird Windows als Betriebssystem verwendet, bietet sich der Einsatz von ODBC und OLE DB an. Diese durch Microsoft entwickelten Standards legen einheitliche Schnittstellen fest, die durch fast alle Datenbanken und ETL-Tools unterstützt werden.

Um das Data-Warehouse mit aktuellen Daten zu versorgen, muss die Extraktion regelmäßig stattfinden. Dies geschieht entweder synchron mit den Quellen oder asynchron. Die asynchrone Extraktion kann periodisch, ereignisgesteuert oder anfragegesteuert erfolgen. Bei der periodischen Synchronistaion erzeugt die Quelle in regelmäßigen Abständen Auszüge ihrer Daten, die regelmäßig abgefragt werden. Die ereignisgesteuerte Synchronisation generiert nur bei bestimmten Ereignissen einen Auszug - beispielsweise nach einer bestimmten Anzahl von Änderungen. Die anfragegesteuerte Synchronisation schließlich stellt Auszüge erst auf Anfrage bereit.

Es sollte auch beachtet werden, dass für das Auslesen der operativen Datenbestände nur begrenzte Zeitfenster zur Verfügung stehen. Oft kann der Zugriff auf die Quellsysteme nur nachts oder zu bestimmten Ruhezeiten stattfinden. Ansonsten würde der operative Tagesbetrieb durch aufwändige Lese- und Kopiervorgänge behindert werden.

ETL-Tools: Der Data Integrator von Business Objects unterstützt den ETL-Prozess (Quelle: Business Objects)
ETL-Tools: Der Data Integrator von Business Objects unterstützt den ETL-Prozess (Quelle: Business Objects)