Grundlagenserie Business Intelligence

BI-Methoden (Teil 2): Data Mining Phasen und Vorgehensschritte

Festlegung der Ziele

In der Phase der Festlegung werden die Ziele festgelegt und die Analyseverfahren. Bei der Festlegung der Ziele sind vor allem vier Teilziele relevant, die mit Data Mining Methoden erreicht werden können.

1. Automatische Gruppenbildung (Clustering)

Das Ziel bei der Bildung von Gruppen oder Clustern ist es, die Datensätze so zusammenzufassen, dass die Datensätze innerhalb eines Clusters möglichst ähnlich sind, Datensätze aus unterschiedlichen Clustern hingegen möglichst unähnlich. Die Gruppen sind dabei im vorhinein nicht bekannt, sondern sind das Ergebnis der Analyse. Durch die Entdeckung der Gruppen soll Wissen über Ähnlichkeiten der Objekte entdeckt werden. Gruppenbildung wird konkret in der wirtschaftlichen Praxis dazu eingesetzt, um Kundensegmente mit spezifischem Kaufverhalten zu extrahieren.

2. Klassifikationen vornehmen

Mit Klassifikationsmodellen lassen sich Prognosen zur Klassenzugehörigkeit von Datenobjekten erstellen. Dabei sind die Klassen, anders als bei der Clustermethode, bereits bekannt. Diese Modelle nehmen eine Zuordnung eines Datenobjekts zu einer bestimmten Klasse anhand einiger seiner Merkmale vor. Typisches Beispiel für die Anwendung von Klassifikationsmodellen ist die Kreditwürdigkeitsprüfung. Hierbei wird aus einem existierenden Datenbestand ein Regelsystem generiert. Ein neuer Kunde, der einen Kredit beantragt, wird dann anhand seiner in das Regelsystem eingegebenen Kundendaten automatisch in die Klasse „kreditwürdig“ oder „nicht kreditwürdig“ eingestuft.

3. Zusammenhänge erklären

Zur Erklärung von Zusammenhängen dienen meist Regressionsmodelle. Dabei wird eine abhängige Variable - z.B. Einkommen - erklärt durch eine oder mehrere unabhängige Merkmale - z.B. Schulabschluss, Berufsausbildung, Geschlecht. Das Modell lässt sich dann zur Prognose einsetzen. Für einen männlichen Hochschulabsolventen mit Betriebwirtschaftsabschluss prognostiziert das Modell dann ein bestimmtes Einkommen.

4. Entdecken von Abhängigkeiten

Bei der Entdeckung von Abhängigkeiten besteht die Aufgabe darin, Dependenzen zwischen den Ausprägungen von Merkmalen der Datensätze zu ermitteln. Diese sollen selbstständig aufgefunden werden. Eine Möglichkeit der Abhängigkeitsentdeckung besteht darin, Assoziationsregeln zwischen Attributwerten zu finden nach dem Muster: Wenn die Merkmalsausprägung A auftritt, dann tritt in x Prozent der Fälle auch Ausprägung B auf. Beispielsweise können derartige Regeln Beziehungen zwischen Artikeln in einem Kaufhaus und Eigenschaften von Käufern herausfinden.