Grundlagenserie Business Intelligence

BI-Methoden (Teil 2): Data Mining Phasen und Vorgehensschritte

Aufbereitungsphase

In der Aufbereitungsphase müssen die Daten so bearbeitet werden, dass sie für die folgenden Analyseprozesse bereit stehen. Hierzu muss die Qualität der Daten insbesondere hinsichtlich Vollständigkeit und Konsistenz verbessert werden. Im Wesentlichen sind hier die Schritte durchzuführen, wie sie im Artikel über den ETL-Prozess beschrieben wurden, wobei einige Data-Mining-spezifische Besonderheiten zu beachten sind.

Hier noch einmal die wichtigsten Punkte. Ein erster Schritt ist die Integration: Die oft in mehreren Datenquellen abgelegten Daten müssen in eine einheitliche Datenbasis zusammen geführt werden. In einem zweiten Schritt sollten die Daten bereinigt werden. Dabei werden Datenfehler korrigiert.

Dieser Schritt ist besonders beim Data Mining mit Vorsicht anzugehen. Denn die Bereinigung von vermeintlichen oder echten Fehlern kann das Analyseergebnis beeinflussen – etwa dann, wenn mit der Ersetzung einer fehlenden Merkmalsausprägung ein bedeutendes Beziehungsmuster in den Daten gelöscht wird.

Ein dritter Schritt ist die Datenanreicherung. Dabei werden dem Datenbestand weitere zweckmäßige Merkmale hinzugefügt. Dies erfolgt konkret durch Hinzufügen von Merkmalen, die sich aus der vorhandenen Datenbasis ableiten lassen. Oder durch die Aufnahme von Daten aus anderen Quellen wie statistischen Ämtern oder Marktforschungsinstituten.

Im letzten Schritt, der Datenreduktion, sollte die Anzahl der Merkmale des Datenbestandes verringert werden. Der Grund: Je größer die Anzahl der Merkmale, umso komplexer wird die Analyse. Eine Verringerung der Merkmalsanzahl führt zu einer Reduzierung der Analysekomplexität.