Grundlagenserie Business Intelligence

BI-Datenmanagement (Teil 1): Datenaufbereitung durch den ETL-Prozess

Laden

Es fehlt noch der letzte Schritt von ETL, das „L“, also „Laden“ der geprüften Daten. Beim Laden werden die vorbereiteten Daten in das Data Warehouse integriert. Hierfür müssen sie physisch in die Datenbank des Data Warehouses verschoben werden und darauf aufbauende Datenanalysesysteme aktualisiert werden.

Das Laden aus dem Staging Area in das Data Warehouse soll möglichst effizient geschehen. Generell sollten die ETL-Prozesse aber immer so kurz wie möglich gehalten werden. In der Regel werden nicht bei jedem Aktualisierungsvorgang die kompletten Daten neu aus dem Staging Area geladen. Zeit- und ressourcensparender ist es, nur die modifizierten und neu hinzugekommenen Quellen zu laden. Somit brauchen bereits in der Extraktionsphase lediglich die veränderten Daten selektiert werden. Dazu muss lediglich in jedem zu ladenden Datensatz der Zeitpunkt der letzten Änderung mit abgespeichert werden.

Der Ladevorgang sollte möglichst effizient geschehen, so dass die Datenbank in dieser Zeit nicht oder nur kurz blockiert wird und ihre Integrität gewahrt bleibt. Zusätzlich kann eine Versionshistorie angefertigt werden, in der Änderungen protokolliert werden, so dass auf Daten zurückgegriffen werden kann, die zu früheren Zeitpunkten gültig waren.

Ein weiterer wichtiger Faktor ist, dass die Datenbanken während des Ladens nicht oder nur kurz blockiert werden sollten. Ansonsten ist kein Zugriff der Endanwender auf das Data Warehouse und die Analysewerkzeuge möglich. Der Ladevorgang sollte deshalb stets im Rahmen des zur Verfügung stehenden Zeitfensters abgeschlossen werden. Im Allgemeinen ist dieses Zeitfenster in der Nacht gelegen, da dann die Dienste nicht benötigt werden.