Grundlagenserie Business Intelligence

BI-Methoden (Teil 3): Data Mining im Detail

Klassifikationsmethoden – Entscheidungsbaumanalyse

Im Unterschied zur Clusteranalyse sind bei Klassifikationsverfahren die Gruppen bereits vorgegeben. Ziel ist es, die Daten automatisch in verschiedene Klassen einzusortieren – etwa Filialen in umsatzschwache und umsatzstarke Niederlassungen. Neue Objekte werden dabei durch einen geschickten Vergleich der Merkmale einer der vorgegebenen Gruppen zugeordnet.

Zur Klassifikation eignet sich besonders die Entscheidungsbaumanalyse. Der Vorteil: Entscheidungsbäume sind einfach zu handhaben, führen zu einer sehr übersichtlichen grafischen Darstellung und funktionieren sehr gut mit kategorisierten und kontinuierlichen Daten.

Um eine Entscheidungsbaumanalyse durchzuführen, ist ein Datenbestand notwendig, dessen Datenobjekte ein ausgezeichnetes, die Klassenzugehörigkeit angebendes Merkmal besitzen. Diese Klassen mit den zugehörenden Elementen stellen die Trainingsdatenmenge dar. Auf Basis dieser Trainingsdatenmenge wird dann ein Klassifikationsmodell entwickelt. Dieses hilft später bei der Bestimmung der Klassenzugehörigkeit von neuen Elementen, also bei der Klassifikation.

Basis des Entscheidungsbaumverfahrens ist die sukzessive Aufspaltung der Trainingsmenge, so dass sich in den daraus resultierenden Teilmengen homogenere Gruppen bezüglich der Klassifikationsvariablen befinden. Dies soll nun anhand eines Beispiels veranschaulicht werden.