Grundlagenserie Business Intelligence

BI-Methoden (Teil 2): Data Mining Phasen und Vorgehensschritte

Das 5-Phasen-Modell - Auswahlphase

Data Mining ist ein mehrphasiger Prozess, der selbst nicht automatisiert abläuft. In der Literatur gibt es einige Vorschläge für Vorgehensmodelle beim Data Mining. Die Grafik zeigt ein einfaches Vorgehensmodell, unterteilt in Planung, Vorbereitung, Mining und Auswertung.

Data Mining Phasen: Data Mining ist Teil eines längeren Prozesses und läuft in mehreren Phasen ab. (Quelle: Pepper Technologies)
Data Mining Phasen: Data Mining ist Teil eines längeren Prozesses und läuft in mehreren Phasen ab. (Quelle: Pepper Technologies)

Relativ weit verbreitet ist ein 5-Phasen-Modell, das sich in 1) Auswahl, 2) Aufbereitung, 3) Festlegung, 4) Analyse und 5) Interpretation gliedert. Dieses soll nun detaillierter vorgestellt werden.

In der Auswahlphase wird die Ausgangslage und eine für das Data Mining geeignete Aufgabe bestimmt. Was soll erreicht werden? Welches Ziel hat die Analyse? Welche Ergebnisse sollen gewonnen werden?

Eine für Data Mining geeignete Aufgabe kann mehrere Merkmale haben. Ein Kriterium ist, dass das zu entdeckende Wissen nützlich und für das Unternehmen anwendbar ist. Es ist in der Praxis wenig sinnvoll, Zusammenhänge in Datenbeständen zu finden, die vielleicht interessant sind, aber für das Unternehmen wirtschaftlich nicht verwertbar sind.

Ein anderes Kriterium einer geeigneten Aufgabenstellung ist die Angemessenheit der Aufgabe. Sie sollte zum einen allgemein genug sein, um die Generierung von Hypothesen zu ermöglichen. Und sie sollte konkret genug sein, um sie wirtschaftlich sinnvoll nutzen zu können.

Für die ausgewählte Aufgabenstellung wird dann die relevante Datenbasis bestimmt. Dabei ist zu prüfen, ob der Datenbestand für die Bearbeitung der Aufgabe eine geeignete Basis ist. Manchmal sind die erforderlichen Daten nicht oder nur eingeschränkt verfügbar. Zudem sollte geprüft werden, ob eine Analyse möglich und zulässig ist. Manchmal bestehen für Datenbasen rechtliche, organisatorische oder technische Einschränkungen – rechtliche etwa, wenn es um die Verarbeitung personenbezogener Daten geht.

Wichtig ist auch, dass die richtigen Personen in den Data-Mining-Prozess eingebunden werden. Ohne Beteiligung von Experten des jeweiligen Sachgebiets ist ein sinnvolles Data Mining nur in ganz einfachen Fällen möglich. Natürlich ist auch der zu erwartende Aufwand zu berücksichtigen. Data Mining ist rechenintensiv, kostspielig und somit nicht geeignet für kleinere Probleme.