Grundlagenserie Business Intelligence

BI-Methoden (Teil 3): Data Mining im Detail

07.05.2008 von Klaus Manhart

Für das Aufspüren wirtschaftlich interessanter Muster und Zusammenhänge stehen eine ganze Reihe von Data Mining Verfahren zur Verfügung. Wir erläutern die Unterschiede zwischen Assoziationsanalyse, Clusteranalyse, Entscheidungsbaumanalyse, Neuronalem Netz und Regressionsmodell.

Data Mining im engeren Sinn besteht aus einer Vielzahl von Methoden. Diese lassen sich für unterschiedlichste Ziele und Aufgaben einsetzen. Die Entscheidungsbaumanalyse kann beispielsweise zur Klassifikation von Kunden mit unterschiedlichen Kreditrisiken genutzt werden. Mit Regressionsverfahren lassen sich Absatzzahlen prognostizieren. Clustermethoden segmentieren Kunden automatisch in verschiedene Käufergruppen. Und die Assoziationsanalyse führt zur Entdeckung von Abhängigkeiten, etwa, dass Käsekäufer auch oft Rotwein in den Warenkorb legen.

Wie bereits im Artikel über Data Mining Phasen erwähnt, ist aber eine eineindeutige Zuordnung zwischen Data Mining Verfahren und bestimmten Aufgaben oder Analysezielen nicht möglich. Stattdessen können einzelne Aufgaben mit mehreren Methoden angegangen werden. So lässt sich ein Neuronales Netz ebenso wie die Entscheidungsbaumanalyse zur Erstellung eines Klassifikations- oder Clustermodells nutzen.

In diesem Beitrag werden die wichtigsten Data Mining Verfahren in einem Überblick vorgestellt. Auf technische und mathematisch-statistische Details der oft recht komplexen Methoden können wir leider nicht eingehen, hier muss auf die weiterführende Literatur verwiesen werden.

Assoziationsanalyse – Abhängigkeiten entdecken

Mit der Assoziationsanalyse sollen Abhängigkeiten zwischen den Datensätzen eines Datenbestandes entdeckt werden. Diese Abhängigkeiten werden durch Wenn-dann-Regeln beschrieben.

Eine Wenn-dann-Regel hat die Struktur: „Wenn Item A vorkommt, dann tritt auch Item B auf.“ Ein Item ist dabei die Ausprägung eines Attributwertes eines Datensatzes. Ein Beispiel für eine einfache Regel wäre: „Wenn ein Kunde Bier kauft, dann kauft er in 60 Prozent der Fälle auch Chips“.

Diese Beziehungen werden nicht als Hypothesen angenommen, sondern sollen mit der Assoziationsanalyse aus den Daten entdeckt werden. Erst nachdem ein auffälliges Muster gefunden wurde, wird untersucht, ob es sich wirklich um eine Abhängigkeit handelt und falls ja, Assoziationsregeln dazu aufgestellt.

Assoziationsregeln werden durch Support und Konfidenz bewertet. Der Supportwert ist die Maßzahl dafür, wie viele Datensätze im Verhältnis zu den Gesamtdaten diese Regel unterstützen. Er gibt also Auskunft über die Stärke des Zusammenhangs. 100 Prozent wäre ein deterministischer, 10 Prozent ein schwacher Zusammenhang. Im ersten Fall gilt die Regel immer, im letzten Fall nur in 10 Prozent.

Der zweite wichtige Wert, der Konfidenzwert, sagt aus, wie viele Datensätze diese Regel unterstützen, im Verhältnis zu den Datensätzen die nur die Prämisse der Regel supporten. Das folgende Beispiel illustriert diese abstrakten Ausführungen:

Assoziationsanalyse – ein Beispiel

Betrachten wir die Regel: „Wenn ein Kunde Schuhe kauft, dann hat er in 10 Prozent der Fälle auch Socken gekauft.“ Der Wenn-Teil mit den „Schuhen“ bildet den sogenannten Regelkopfbeziehungsweise die Prämisse, der Dann-Teil mit den „Socken“ ist der Regelrumpfbeziehungsweise die Konklusion.

Assoziationsregel: Ein Beispiel mit Regel, Transaktionstabelle, Venn-Diagramm und Bewertungskriterien.

Das Beispiel in der Grafik enthält einige Zahlen, die die Berechnung von Support- und Konfidenz illustrieren: Nach der Transaktionstabelle haben 200.000 Personen Schuhe und 50.000 Socken gekauft. Die Schnittmenge, also diejenigen die Schuhe und Socken gekauft haben, bilden 20.000 Käufer.

Die Konfidenzeiner Regel gibt Auskunft über die Stärke des Zusammenhangs zwischen Regelrumpf und Regelkopf und beträgt hier zehn Prozent. Sie wird berechnet, indem der Anteil der Transaktionen, die sowohl Schuhe als auchSocken enthalten, ins Verhältnis gesetzt wird zu allen Transaktionen, in denen Schuhe gekauft werden. Der gleichzeitige Kauf beider Produkte kommt bei zwei Prozent aller Transaktionen vor. Dieser Anteil stellt den Supportder Regel dar.

Konfidenz und Support: Schematische Darstellung anhand des Beispiels.

Analyse von Warenkorbdaten

Für die Assoziationsanalyse wird nun für beide Werte – Support und Konfidenz - ein Minimum definiert. Anschließend werden mittels dieser Minima alle Regeln erstellt, deren Konfidenz- bzw. Supportwerte darüber liegen. Hiermit lässt sich ein einfaches Assoziationsmodell erstellen. Dabei gilt: Je größer diese Werte, desto bedeutender ist die Regel.

Das gewählte Beispiel weist bereits auf die häufigste Anwendung der Assoziationsanalyse hin, die im Übrigen gelegentlich auch als Regelinduktion bezeichnet wird: Die Analyse von Warenkorbdaten. Hier wird speziell eine Menge an Warenkörben daraufhin untersucht, ob Regeln zwischen den gekauften Waren bestehen, also konkret: Welche Produkte haben Kunden bei einem Kauf gemeinsam erworben.

Warenkorbanalysen stellen die beste Möglichkeit bereit, das Kaufverhalten zu analysieren und Kundenbedürfnisse aufzuspüren. Hat man durch eine Warenkorbanalyse beispielsweise Gruppen von häufig zusammen verkauften Produkten herausgefunden, lässt sich das Sortiment in einem Offline- oder Online-Shop optimieren und konsumgerecht platzieren.

Ordern Käufer von Madonna-CDs auch häufig solche von Britney Spears, werden beide zusammen angeboten. Werden die Resultate einer Warenkorbanalyse mit den Kundendaten verknüpft, lässt sich eine Vorhersage über die Kaufwahrscheinlichkeiten zukünftiger Einkäufe im Web treffen. Es ist dann zum Beispiel möglich, Werbebanner auf Grund der Anmeldedaten gruppen- oder personenbezogen zu steuern.

Clusteranalyse – Gruppen finden

Clusterverfahren sind ein typisches Verfahren, um einen Datenbestand zu segmentieren. Es lassen sich damit Gruppen wie unterschiedlich zahlungskräftige Kunden bilden, ohne dass diese im Vorhinein bekannt sind. Letzteres ist wichtig: Im Gegensatz zu den unten vorgestellten Klassifikationsmodellen sind die Gruppen bei der Clusteranalyse a priori unbekannt – sie sollen durch das Clustering erst entdeckt werden.

Das Grundprinzip bei der Clusteranalyse ist folgendes: Es werden Gruppen mit Datensätzen gebildet, die hinsichtlich eines Attributs - wie beispielsweise Einkommen - so homogen wie möglich sind. Gleichzeitig sollen die Datensätze jedoch im Vergleich zu anderen homogenen Clustern – also anderen Einkommensgruppen - größtmögliche Unterschiede aufweisen.

Die Datensätze sollen damit innerhalb der Gruppe maximal ähnlich, zwischen den Gruppen maximal verschieden sein. Dabei können zur Clusterbildung auch mehrere Attribute gleichzeitig - etwa Alter, Größe und Gewicht - berücksichtigt werden. Eine Clusteranalyse kann dann zum Beispiel alle großen, schweren, jüngeren „Fälle" in einem Cluster und alle kleinen, leichten, älteren Fälle in einem anderen Cluster zusammenfassen.

Gruppeneinteilung: Clusterverfahren helfen, den Datenbestand zu segmentieren.

Mit der Clusteranalyse lassen sich beispielsweise bestimmte Besuchergruppen identifizieren. Ein einfaches Exempel für eine in einer Kundendatenbank gefundene Gruppe könnte etwa folgendermaßen aussehen:

Gruppe-020: (N=103) Bestellhäufigkeit = selten durchschn-Bestellvol < 100 Alter > 45

Hier wurde eine ältere Kundengruppe mit schwacher Bestellfrequenz gefunden. Die Clusteranalyse ermöglicht es also, profitable und weniger profitable Kunden zu unterscheiden. Da für die Clusteranalyse keine Trainingsmenge mit bekannter Klassenzuordnung existiert, gehört die Clusteranalyse zur Klasse der strukturentdeckenden Verfahren.

Hierarchische und partitionierende Clusterverfahren

Basis für die Anwendungen von Clusterverfahren ist die Festlegung geeigneter Ähnlichkeitsmaße. Diese müssen sowohl zwischen je zwei Datensätzen als auch zwischen je zwei Gruppen festgelegt werden. Ein quantitatives Ähnlichkeitsmaß wäre etwa der Euklidische Abstand zwischen den quantitativen Attributwerten, ein qualitatives Ähnlichkeitsmaß die Anzahl der übereinstimmenden Attributwerte zweier Datensätze.

Clusterverfahren lassen sich grundsätzlich in hierarchische und partitionierende Verfahren unterteilen. Das hierarchischen Clustering untergliedert sich wiederum in agglomerative und diversive Methoden.

Beim agglomerativen Verfahren werden mit jedem Iterationsschritt, ausgehend von einzelnen Elementen, die ähnlichsten Daten zusammengefasst. Auf diese Weise entsteht eine neue Partition, deren Clusterzahl geringer ist. Agglomerative Verfahren unterscheiden sich im Wesentlichen in der Definition des Ähnlichkeitsmaßes zwischen den Clustern.

Beim diversiven Verfahren werden ausgehend von einer Gesamtdatenmenge in jedem Schritt die unterscheidbarsten Daten geteilt. Dabei wird die Gesamtdatenmenge in immer kleinere Teilmengen aufgespaltet, bis schließlich die Partition entsteht, deren Cluster aus jeweils den einzelnen Datensätzen besteht. Das diversive Verfahren wird in der Praxis selten angewendet.

Die partitionierenden Verfahren gehen von einer vordefinierten Clusteranzahl aus, wobei jeder Datensatz sukzessive in die Klasse eingeteilt wird, deren Ähnlichkeit zum Datensatz am größten ist. Ein populärer Vertreter ist das k-Means-Verfahren. Weitere Ansätze zur Clusterbildung sind Fuzzy-Methoden oder das Erwartungs-Maximierungsverfahren.

Klassifikationsmethoden – Entscheidungsbaumanalyse

Im Unterschied zur Clusteranalyse sind bei Klassifikationsverfahren die Gruppen bereits vorgegeben. Ziel ist es, die Daten automatisch in verschiedene Klassen einzusortieren – etwa Filialen in umsatzschwache und umsatzstarke Niederlassungen. Neue Objekte werden dabei durch einen geschickten Vergleich der Merkmale einer der vorgegebenen Gruppen zugeordnet.

Zur Klassifikation eignet sich besonders die Entscheidungsbaumanalyse. Der Vorteil: Entscheidungsbäume sind einfach zu handhaben, führen zu einer sehr übersichtlichen grafischen Darstellung und funktionieren sehr gut mit kategorisierten und kontinuierlichen Daten.

Um eine Entscheidungsbaumanalyse durchzuführen, ist ein Datenbestand notwendig, dessen Datenobjekte ein ausgezeichnetes, die Klassenzugehörigkeit angebendes Merkmal besitzen. Diese Klassen mit den zugehörenden Elementen stellen die Trainingsdatenmenge dar. Auf Basis dieser Trainingsdatenmenge wird dann ein Klassifikationsmodell entwickelt. Dieses hilft später bei der Bestimmung der Klassenzugehörigkeit von neuen Elementen, also bei der Klassifikation.

Basis des Entscheidungsbaumverfahrens ist die sukzessive Aufspaltung der Trainingsmenge, so dass sich in den daraus resultierenden Teilmengen homogenere Gruppen bezüglich der Klassifikationsvariablen befinden. Dies soll nun anhand eines Beispiels veranschaulicht werden.

Entscheidungsbaumanalyse – ein Beispiel

Besonders häufig eingesetzt wird das Entscheidungsbaumverfahren in der Kreditwürdigkeitsprüfung. In diesem Praxisfeld wird ein Kunde anhand seiner angegebenen Kundendaten als kreditwürdig oder –unwürdig eingestuft. Dabei werden 50 Prozent der Datensätze als kreditwürdig und 50 Prozent als nicht kreditwürdig bezeichnet.

Durch eine Aufteilung des Datenbestandes sollen zwei Teilmengen derart entstehen, dass sich in der einen Teilmenge mehr Datensätze mit der Eigenschaft kreditwürdig befinden, in der anderen Teilmenge mehr nicht kreditwürdige Datensatze. Beide Teilmengen sind dann je für sich homogener als der Ausgangsdatenbestand. Das Ergebnis kann als Entscheidungsbaum dargestellt werden.

Ein Entscheidungsbaum besteht aus Knoten und Kanten. Die Knoten repräsentieren die Teilmengen des Datenbestands, die Kanten die Aufteilungsvorschrift. Ausgezeichnete Knoten sind der Wurzelknoten, der keinen Vorgängerknoten besitzt, und der Endknoten, der keinen Nachfolgerknoten hat. Ein Beispiel sehen Sie in der Grafik.

Entscheidungsbaum: Knoten segmentieren den Datenbestand, die Kanten liefern hierfür die Bedingungen.

Der oberste Knoten ist der Wurzelknoten, der die gesamte Trainingsmenge repräsentiert. An den Kanten sind die Merkmalsausprägungen eingetragen, nach denen die Ausgangsmenge in ihre Teilmengen aufgespaltet wird. Die untersten Knoten sind die Endknoten. Sie stellen diejenige Menge von Datensätzen dar, deren Homogenität hinreichend groß ist, so dass alle Elemente dieser Menge einer bestimmten Klasse zugeordnet werden können.

Neue Objekte einordnen

In dem Beispiel werden 10.000 Datensätze betrachtet, von denen 3.000 einer Klasse X und 7.000 einer Klasse Y angehören. Die erste Aufteilung des gesamten Datenbestandes geschieht durch die Überprüfung, ob das Attribut A die Bedingung K1 erfüllt oder nicht. Durch diese Aufteilung entsteht im Beispiel ein Knoten, der 3.800 Datensätze der Klasse Y beinhaltet und nur 200 der Klasse X.

Neue Objekte können nun anhand des Baumes in eine Klasse eingeordnet werden. Dazu „läuft“ der entsprechende Datensatz vom Wurzelknoten aus unter Beachtung der Aufteilungsregel an den Kanten entlang und wird jeweils in die entsprechenden Teilmengen einsortiert.

Die Prozedur stoppt, sobald ein Endknoten erreicht ist. Dessen Klassenzugehörigkeit wird dann auf das Objekt übertragen. Im Beispiel wird für einen neuen Datensatz, dessen Attribut die Bedingung K1 erfüllt, eine voraussichtliche Zugehörigkeit zur Klasse Y abgeleitet.

Die Güte eines Entscheidungsbaumes wird anhand der Fehlklassifikationsquote gemessen. Die Quote gibt den Anteil der fehlerhaft klassifizierten Datensätze zur Gesamtzahl der klassifizierten Datensätze an. Die Fehlklassifikationsquote darf nicht auf dem Trainingsdatenbestand ermittelt werden, sondern auf einer unabhängigen Testmenge.

Die Grafik unten zeigt ein weiteres Beispiel, wie eine Bank ihren Kundenstamm mit Hilfe der Entscheidungsbaumanalyse in verschieden lukrative Kundengruppen segmentieren könnte.

Kundenbestand segmentieren: Eine Entscheidungsbaumanalyse ordnet Kunden in verschieden lukrative Segmente ein.

Prognosen erstellen mit Regressionsmodellen

Die Zielsetzung der Regressionsanalyse ist ähnlich zur Klassifikation, in diesem Fall werden jedoch keine Klassen gebildet. Vielmehr werden Regressionsmodelle erstellt, um zum Beispiel Absatzprognosen oder Umsatzentwicklungen für das nächste Jahr zu berechnen. Dabei wird eine abhängige Variable - wie der Produktabsatz - mit Hilfe von mehreren unabhängigen Variablen „erklärt“ - wie beispielsweise durch Produktpreis oder Kundeneinkommen.

Das Grundkonzept der Regressionsanalyse soll anhand eines einfachen Beispiels dargestellt werden. Mit einem Regressionsmodell soll analysiert werden, inwieweit das Gehalteines leitenden Angestellten von der Anzahl seiner zu betreuenden Mitarbeiterund dem zu erwartenden Gewinnseines Projektes abhängt. „Gehalt“ wäre dabei die abhängige Variable, die von den beiden unabhängigen Variablen „Mitarbeiterzahl“ und „Gewinn“ erklärt werden soll.

Zur Beschreibung des Zusammenhangs zwischen der abhängigen Variablen und den unabhängigen Variablen nutzt man im einfachsten Fall eine lineare Funktion. Bei diesem linearen Regressionsmodell wird angenommen, dass das interessierende Merkmal „Gehalt“ durch eine lineare Kombination der anderen Merkmale erklärt werden kann. Die Gewichtung der Einflüsse der erklärenden Merkmale wird dabei aus den Daten geschätzt.

Ein lineares Regressionsmodell für das Beispiel wäre Gehalt = a * Mitarbeiter + ß * Gewinn

Ziel der Regressionsanalyse ist nun die Bestimmung der unbekannten Parameter a undß. Sie werden aus den vorliegenden Daten errechnet. Dabei wird die Methode der kleinsten Quadrate eingesetzt, die die Summe der quadratischen Fehlerabweichungen der Erfahrungswerte von der Regressionsgeraden minimiert. Je kleiner die Varianz der Fehlerabweichungen von der Regressionsgeraden ist, desto genauer ist die Prognose.

Lineare Regressionsanalyse: Eine Gerade wird so durch die Datenpunkte gelegt, dass die Summe der quadratischen Abweichungen zwischen Gerade und Datenpunkten minimal ist.

Das Ergebnis ist eine Regressionsgrade, die visuell betrachtet durch die Menge der Erfahrungswerte verläuft und bei der die Summe der quadratischen Abweichungen zwischen Gerade und Erfahrungswert minimal ist.

Mit Hilfe der Gleichung lässt sich dann für jeden einzelnen Mitarbeiter prüfen, ob sein Gehalt unterhalb der Regressionsgerade liegt - und er somit unterbezahlt ist - oder oberhalb platziert ist.

Künstliche Neuronale Netze

Künstliche Neuronale Netze (KNN) versuchen, Data Mining Aufgaben durch Nachbildung der Arbeitsweise des menschlichen Gehirns zu lösen. Dabei können KNN für alle bereits erwähnten Aufgaben genutzt werden, also zur Erstellunge eines Klassifikationsmodells, einer Regressionsanalyse und für die Clusterbildung.

Das Grundkonzept von KNN kann hier nur knapp dargestellt werden: KNN sind als Netz unabhängiger Neuronen aufgebaut, welche jeweils in Schichten, so genannten Layers, angeordnet sind. Diese Schichten sind mit ihren Nachfolgern verbunden. Es gibt eine Eingabe- und eine Ausgabeschicht. Bei manchen Neuronalen Netzen liegen dazwischen noch weitere Verbindungsschichten.

Das Besondere an KNN ist, dass sie lernfähig sind. Mit Hilfe von Trainingssets werden Klassifikationen von Daten erlernt. Hierfür existiert eine Grundstruktur, welche die spezifischen Merkmale der Neuronen definiert, erstellt und mit Hilfe von Lernregeln an eine Datenmenge, das Trainingsset, anpasst.

Um ein Modell zu generieren, muss man das Ausgangmodell in mehreren Iterationen verbessern. Dabei werden meist viele Durchläufe benötigt um zu sinnvollen Ergebnissen zu gelangen.

Die wohl bekannteste Anpassungsmethode ist Backpropagation. Hier wird der Output mit den richtigen Daten verglichen und es wird versucht, den Fehler - die Abweichung von der Realität - mit der Veränderung von Gewichtungen zu optimieren.

Je nach Art der Lernregeln unterscheidet man zwischen vorwärts gerichteten Künstlichen Neuronalen Netzen, welche zur Klassifikation oder Regression angewendet werden, und Kohonen-Netzen, die zur Erkennung von Clustern eingesetzt werden.

Fazit

Zentrale Fragestellungen der BI lassen sich heute mit Data Mining Methoden gut angehen. Sie geben Auskunft über das Kreditrisiko von Kunden, prognostizieren Absatzzahlen, segmentieren Käufergruppen und entdecken, welche Warengruppen Kunden einkaufen. Hiefür dienen Entscheidungsbaum-, Regressions-, Cluster- und Assoziationsanalyse. Dies sind die Kernverfahren im Data Mining, die von weniger oft angewandten Methoden ergänzt werden.

Die Verfahren sind teils hochkomplex und bedürfen intensiver Einarbeitung. Aus diesem Grund ist es ratsam, Data Mining Experten hinzuziehen, die die Materie beherrschen.

Die Kunst beim Data Mining besteht auch darin, die richtige Methode für das richtige Problem anzuwenden. Denn mit vielen der vorgestellten Verfahren lassen sich mehrere Problemfelder bearbeiten. Auch dies ist ein Grund, Experten hinzuzuziehen. (ala)