Grundlagenserie Business Intelligence

BI-Methoden (Teil 3): Data Mining im Detail

Entscheidungsbaumanalyse – ein Beispiel

Besonders häufig eingesetzt wird das Entscheidungsbaumverfahren in der Kreditwürdigkeitsprüfung. In diesem Praxisfeld wird ein Kunde anhand seiner angegebenen Kundendaten als kreditwürdig oder –unwürdig eingestuft. Dabei werden 50 Prozent der Datensätze als kreditwürdig und 50 Prozent als nicht kreditwürdig bezeichnet.

Durch eine Aufteilung des Datenbestandes sollen zwei Teilmengen derart entstehen, dass sich in der einen Teilmenge mehr Datensätze mit der Eigenschaft kreditwürdig befinden, in der anderen Teilmenge mehr nicht kreditwürdige Datensatze. Beide Teilmengen sind dann je für sich homogener als der Ausgangsdatenbestand. Das Ergebnis kann als Entscheidungsbaum dargestellt werden.

Ein Entscheidungsbaum besteht aus Knoten und Kanten. Die Knoten repräsentieren die Teilmengen des Datenbestands, die Kanten die Aufteilungsvorschrift. Ausgezeichnete Knoten sind der Wurzelknoten, der keinen Vorgängerknoten besitzt, und der Endknoten, der keinen Nachfolgerknoten hat. Ein Beispiel sehen Sie in der Grafik.

Entscheidungsbaum: Knoten segmentieren den Datenbestand, die Kanten liefern hierfür die Bedingungen.
Entscheidungsbaum: Knoten segmentieren den Datenbestand, die Kanten liefern hierfür die Bedingungen.

Der oberste Knoten ist der Wurzelknoten, der die gesamte Trainingsmenge repräsentiert. An den Kanten sind die Merkmalsausprägungen eingetragen, nach denen die Ausgangsmenge in ihre Teilmengen aufgespaltet wird. Die untersten Knoten sind die Endknoten. Sie stellen diejenige Menge von Datensätzen dar, deren Homogenität hinreichend groß ist, so dass alle Elemente dieser Menge einer bestimmten Klasse zugeordnet werden können.