Grundlagenserie Business Intelligence

BI-Methoden (Teil 3): Data Mining im Detail

Neue Objekte einordnen

In dem Beispiel werden 10.000 Datensätze betrachtet, von denen 3.000 einer Klasse X und 7.000 einer Klasse Y angehören. Die erste Aufteilung des gesamten Datenbestandes geschieht durch die Überprüfung, ob das Attribut A die Bedingung K1 erfüllt oder nicht. Durch diese Aufteilung entsteht im Beispiel ein Knoten, der 3.800 Datensätze der Klasse Y beinhaltet und nur 200 der Klasse X.

Neue Objekte können nun anhand des Baumes in eine Klasse eingeordnet werden. Dazu „läuft“ der entsprechende Datensatz vom Wurzelknoten aus unter Beachtung der Aufteilungsregel an den Kanten entlang und wird jeweils in die entsprechenden Teilmengen einsortiert.

Die Prozedur stoppt, sobald ein Endknoten erreicht ist. Dessen Klassenzugehörigkeit wird dann auf das Objekt übertragen. Im Beispiel wird für einen neuen Datensatz, dessen Attribut die Bedingung K1 erfüllt, eine voraussichtliche Zugehörigkeit zur Klasse Y abgeleitet.

Die Güte eines Entscheidungsbaumes wird anhand der Fehlklassifikationsquote gemessen. Die Quote gibt den Anteil der fehlerhaft klassifizierten Datensätze zur Gesamtzahl der klassifizierten Datensätze an. Die Fehlklassifikationsquote darf nicht auf dem Trainingsdatenbestand ermittelt werden, sondern auf einer unabhängigen Testmenge.

Die Grafik unten zeigt ein weiteres Beispiel, wie eine Bank ihren Kundenstamm mit Hilfe der Entscheidungsbaumanalyse in verschieden lukrative Kundengruppen segmentieren könnte.

Kundenbestand segmentieren: Eine Entscheidungsbaumanalyse ordnet Kunden in verschieden lukrative Segmente ein.
Kundenbestand segmentieren: Eine Entscheidungsbaumanalyse ordnet Kunden in verschieden lukrative Segmente ein.