Video-Schulung

eSeminar Business Intelligence, Lektion 3 - BI-Analysemethoden OLAP und Data Mining

Data Mining – nach Mustern schürfen

Ein drittes, recht bekanntes Analyseverfahren ist Data Mining. Data Mining-Werkzeuge sind darauf spezialisiert, unbekannte Muster und Zusammenhänge in größeren Datensammlungen zu finden. Der Name „Data Mining“ kommt daher, dass man wie in einer Edelstein-Mine den Gesamt-Datenbestand „abschürft“.

Data Mining wird vielfältig eingesetzt. Banken verwenden Data Mining beispielsweise zur Erkennung von Kreditkartenbetrug und für die Profilerstellung von Kunden, die mit gewisser Wahrscheinlichkeit ihre Kreditverbindlichkeiten nicht erfüllen können. Im Marketing wird Data Mining genutzt um Absatzprognosen, Kundensegmentierungen, Warenkorbanalyse und Missbrauchserkennungen durchzuführen.

Data Mining besteht aus einem ganzen Arsenal komplexer Methoden, die im Wesentlichen der Statistik, dem maschinellen Lernen, der Künstlichen Intelligenz und der klassischen Mustererkennung entstammen. Zwei wollen wir Ihnen kurz vorstellen.

Das erste ist die Assoziationsanalyse. Mit diesem Verfahren wird durch maschinelles Lernen versucht, aus den Daten so genannte Assoziationsregeln zu generieren. Diese beschreiben, welche Gruppen von Objekten oder Eigenschaften häufig gemeinsam auftreten.

Eine solche Regel, die ein Data Mining Tool in einem Datenbestand entdecken könnte, wäre etwa: „Wer in der IT-Branche tätig ist, verfügt häufig (zu 70 Prozent) über ein Jahres-Bruttoeinkommen über 40.000 Euro“. Die Merkmale „IT-Arbeiter“ und „hohes Einkommen“ treten also häufig gemeinsam auf.

Eine wichtige Anwendung der Assoziationsanalyse ist die Analyse von Warenkorbdaten. Hier wird eine Menge an Warenkörben daraufhin untersucht, ob Zusammenhänge (Regeln) zwischen den gekauften Waren bestehen, also konkret: Welche Produkte haben Kunden bei einem Kauf gemeinsam erworben.

Eine über eine Warenkorbanalyse gefundene Assoziationsregel wäre etwa, dass „in 40 Prozent der Transaktionen, in denen Margarine gekauft wurde, auch Briekäse gekauft wurden“. Hat man durch eine Warenkorbanalyse Gruppen von häufig zusammen verkauften Produkten herausgefunden, lässt sich das Sortiment im Laden oder auf der Website optimieren und konsumgerecht platzieren. Etwa Margarine neben Briekäse.

Ein anderes Data Mining Verfahren ist die Clusteranalyse. Sie wird benützt, um Gruppen von Datensätzen aufzufinden, die Ähnlichkeiten aufweisen.

Die Clusteranalyse klassifiziert also eine Datenmenge in verschiedene Teilmengen, die sich jeweils ähnlich sind. Die Ähnlichkeiten der Objekte innerhalb einer Kategorie sollen möglichst groß, zwischen den Kategorien gering sein.

Abwanderungsgefährdet: Neuronale Netze können aus bereits abgewanderten Kunden Merkmale extrahieren, die diese gemeinsam haben. Selektiert man über diese Faktoren Kunden des aktuellen Kundenbestands, erhält man die aktuell abwanderungsgefährdeten Kunden. Diese können dann gezielt „umsorgt“ werden. (Quelle: CSC)
Abwanderungsgefährdet: Neuronale Netze können aus bereits abgewanderten Kunden Merkmale extrahieren, die diese gemeinsam haben. Selektiert man über diese Faktoren Kunden des aktuellen Kundenbestands, erhält man die aktuell abwanderungsgefährdeten Kunden. Diese können dann gezielt „umsorgt“ werden. (Quelle: CSC)

Mit der Clusteranalyse lassen sich beispielsweise bestimmte Gruppen identifizieren. So ermöglicht es die Clusteranalyse etwa, profitable und weniger profitable Kunden zu unterscheiden. Mit anderen Techniken wie neuronalen Netzen lassen sich die Analysen vertiefen und konkrete Eigenschaften finden, die diese Gruppen genauer voneinander unterscheiden.

Banken können mit neuronalen Netzen aus bereits abgewanderten Kunden Merkmale extrahieren, die diese gemeinsam haben. Selektiert man über diese Faktoren Kunden des aktuellen Kundenbestands, erhält man die aktuell abwanderungsgefährdeten Kunden. Diese können dann gezielt „umsorgt“ werden.

Regelinduktion, Warenkorbanalyse, Clusteranalyse und neuronale Netze sind nur einige der vielen im Data Mining eingesetzten Verfahren. Sie werden ergänzt durch Entscheidungsbäume, genetische Algorithmen, Regessionsanalyse und anderes - Interessante Verfahren, für die wir Sie im Detail auf unsere Artikelserie Business Intelligence verweisen müssen. (ala)