Grundlagenserie Business Intelligence

BI-Methoden (Teil 3): Data Mining im Detail

Clusteranalyse – Gruppen finden

Clusterverfahren sind ein typisches Verfahren, um einen Datenbestand zu segmentieren. Es lassen sich damit Gruppen wie unterschiedlich zahlungskräftige Kunden bilden, ohne dass diese im Vorhinein bekannt sind. Letzteres ist wichtig: Im Gegensatz zu den unten vorgestellten Klassifikationsmodellen sind die Gruppen bei der Clusteranalyse a priori unbekannt – sie sollen durch das Clustering erst entdeckt werden.

Das Grundprinzip bei der Clusteranalyse ist folgendes: Es werden Gruppen mit Datensätzen gebildet, die hinsichtlich eines Attributs - wie beispielsweise Einkommen - so homogen wie möglich sind. Gleichzeitig sollen die Datensätze jedoch im Vergleich zu anderen homogenen Clustern – also anderen Einkommensgruppen - größtmögliche Unterschiede aufweisen.

Die Datensätze sollen damit innerhalb der Gruppe maximal ähnlich, zwischen den Gruppen maximal verschieden sein. Dabei können zur Clusterbildung auch mehrere Attribute gleichzeitig - etwa Alter, Größe und Gewicht - berücksichtigt werden. Eine Clusteranalyse kann dann zum Beispiel alle großen, schweren, jüngeren „Fälle" in einem Cluster und alle kleinen, leichten, älteren Fälle in einem anderen Cluster zusammenfassen.

Gruppeneinteilung: Clusterverfahren helfen, den Datenbestand zu segmentieren.
Gruppeneinteilung: Clusterverfahren helfen, den Datenbestand zu segmentieren.

Mit der Clusteranalyse lassen sich beispielsweise bestimmte Besuchergruppen identifizieren. Ein einfaches Exempel für eine in einer Kundendatenbank gefundene Gruppe könnte etwa folgendermaßen aussehen:

Gruppe-020: (N=103)
Bestellhäufigkeit = selten
durchschn-Bestellvol < 100
Alter > 45

Hier wurde eine ältere Kundengruppe mit schwacher Bestellfrequenz gefunden. Die Clusteranalyse ermöglicht es also, profitable und weniger profitable Kunden zu unterscheiden. Da für die Clusteranalyse keine Trainingsmenge mit bekannter Klassenzuordnung existiert, gehört die Clusteranalyse zur Klasse der strukturentdeckenden Verfahren.