Grundlagenserie Business Intelligence

BI-Datenmanagement (Teil 1): Datenaufbereitung durch den ETL-Prozess

ETL-Tools

Grundsätzlich kann der ETL Prozess in einer beliebigen Programmiersprache umgesetzt werden. Große Unternehmen nutzen aber meist bestehende ETL-Lösungen von Drittherstellern. WebSphere DataStage von IBM beispielsweise ist ein Bestandteil der WebSphere Data Integration Suite und beinhaltet Data Profiling, Data Quality und Cleansing Werkzeuge.

Das ETL-Tool der Firma Ab Initio stellt verschiedene Softwarekomponenten bereit, um die Parallelisierung von Datenströmen, die als Partitionen bezeichnet werden, zu ermöglichen. Es ist von der Architektur her eine Art Generator. Ein ausführbarer ETL-Prozess ist ein Kornshell-Skript, das bei der Entwicklung generiert oder auch manuell erstellt werden kann.

Relativ weit verbreitet ist der Oracle Warehouse Builder. Mit ihm können Daten von verschiedenen Datenquellen auch aus Systemen wie SAP, Sybase oder Informix gelesen und in das Data Warehouse homogenisiert umgewandelt werden. Hier sorgt der Warehouse Builder nicht nur für die Datentransformation, sondern auch – in Verbindung mit Oracle Workflow – für die richtige Reihenfolge unterschiedlicher Lade- und Transformationsschritte, die im Editor des Warehouse Builders als Prozesslandkarte definiert werden können. Daraus entsteht dann automatisch die notwendige Infrastruktur für Reporting und Analyse.

Weitere bekannte ETL-Hersteller und Tools sind beispielsweise der Data Integrator von Business Objects, der Data Mirror von IBM, Informatica Power Center oder Hummingbird Genio.