Video-Schulung

eSeminar Business Intelligence, Lektion 3 - BI-Analysemethoden OLAP und Data Mining

21.03.2008 von Klaus Manhart
Nachdem die ersten beiden Lektionen des eSeminars Business Intelligence das Sammeln der Daten betrachtet haben, geht es in diesem Teil um deren Auswertung und Analyse. Vor allem die Ad-Hoc-Analyse mit OLAP und das Data Mining sind wichtige Schritte im BI-Prozess.

Im einfachsten Fall kann die Analyse der Daten über eine freie Datenrecherche mit einer Datenmanipulationssprache erfolgen, wie sie in Datenbanksystemen eingesetzt werden. Dabei werden die in Data Warehouses und Data Marts abgelegten Daten direkt recherchiert und abgefragt.

Bei relationalen Datenbanken wird vorzugsweise die „Structured Query Language“, kurz SQL verwendet. SQL erlaubt unter anderem die gezielte Abfrage und Gruppierung von Daten in Datenbanken.

Video-Schulung: Für das kostenlose eSeminar müssen Sie sich nur noch registrieren. Klicken Sie einfach auf das Bild!

Hierzu ein einfaches Beispiel:

SELECT Kfz, Einwohner, Name
FROM Stadt
WHERE Einwohner >= 1000

Der SQL-Befehl „SELECT“ selektiert aus der Input-Tabelle „Stadt“ die Namen aller Kfz-Besitzer, die in Orten mit mehr als 1000 Einwohnern wohnen. Wir haben hiermit also aus einem bestehenden Datenbestand eine neue Information generiert.

Techniknahe Abfragesprachen im BI-Umfeld haben Vorteile und Nachteile. Positiv ist die hohe Flexibilität und Performanz von Sprachen wie SQL, da die Operationen direkt im Datenbestand ausgeführt werden. Die Analysergebnisse lassen sich zudem leicht in anderen Systemumgebungen weiterverarbeiten.

Negativ ist, dass die Datenmanipulationssprachen einarbeitungsintensiv sind und hohe IT-Kompetenz voraussetzen. Manager und andere IT-Entscheider sind in der Regel nicht gewillt, sich dieses Wissen anzueignen, so dass SQL eher Datenbankadministratoren und Powerusern vorbehalten bleibt.

Ad-Hoc-Analyse: OLAP

Komplexe Recherchen, die gleichzeitig eine flexible, intuitive Analyse ermöglichen, sind mit OLAP möglich. OLAP steht für „Online Analytical Processing“, geht auf den Datenbankspezialisten Edgar F. Codd zurück und ist einer der bekanntesten Vertreter so genannter Ad-hoc-Auswertungssysteme. Charakteristisch für Ad-hoc-Systeme ist, dass der Analyst zu Beginn oftmals nicht genau weiß, welche Daten er im Weiteren untersuchen soll.

Die Daten werden für OLAP-Analysen nicht wie im relationalen Datenmodell als flache Tabellen, sondern in einem multidimensionalen Datenwürfel, dem „Cube“, präsentiert. Auf diese Weise lassen sich die Daten aus unterschiedlichen Perspektiven und Detaillierungsstufen betrachten. Zur Analyse werden mehrerer Dimensionen aufgespannt, wir beschränken uns im Folgenden aus anschaulichen Gründen auf drei.

Daten als Würfel: Ein OLAP-Cube mit drei typischen Dimensionen.

Die erste Dimension können beispielsweise verschiedene Produkte sein, die zweite Dimension die Region, als dritte Dimension schließlich die Zeit. Nun lässt sich der Datenwürfel aufspannen. Jede Zelle des Würfels enthält nun genau einen Wert, der zum Beispiel den Umsatz von Produkt 1 in der Region Ost im Jahr 2003 angibt.

Betriebswirtschaftliche Kennzahlen können nun mehrdimensional analysiert werden. Dazu dienen die OLAP-Funktionen. Die erforderlichen Datensätze können durch verschiedene Operationen erzeugt werden, etwa das Herausschneiden von Teilwürfeln („Slicing“) oder das Rotieren des Datenwürfels („Dicing“).

Bestimmte Sichten erhält man auch durch das Herausschneiden von Ebenen, etwa indem man nur ein bestimmtes Produkt oder ein bestimmtes Jahr betrachtet. Die Analyseergebnisse lassen sich auch schrittweise verfeinern und verdichten.

Data Mining – nach Mustern schürfen

Ein drittes, recht bekanntes Analyseverfahren ist Data Mining. Data Mining-Werkzeuge sind darauf spezialisiert, unbekannte Muster und Zusammenhänge in größeren Datensammlungen zu finden. Der Name „Data Mining“ kommt daher, dass man wie in einer Edelstein-Mine den Gesamt-Datenbestand „abschürft“.

Data Mining wird vielfältig eingesetzt. Banken verwenden Data Mining beispielsweise zur Erkennung von Kreditkartenbetrug und für die Profilerstellung von Kunden, die mit gewisser Wahrscheinlichkeit ihre Kreditverbindlichkeiten nicht erfüllen können. Im Marketing wird Data Mining genutzt um Absatzprognosen, Kundensegmentierungen, Warenkorbanalyse und Missbrauchserkennungen durchzuführen.

Data Mining besteht aus einem ganzen Arsenal komplexer Methoden, die im Wesentlichen der Statistik, dem maschinellen Lernen, der Künstlichen Intelligenz und der klassischen Mustererkennung entstammen. Zwei wollen wir Ihnen kurz vorstellen.

Das erste ist die Assoziationsanalyse. Mit diesem Verfahren wird durch maschinelles Lernen versucht, aus den Daten so genannte Assoziationsregeln zu generieren. Diese beschreiben, welche Gruppen von Objekten oder Eigenschaften häufig gemeinsam auftreten.

Eine solche Regel, die ein Data Mining Tool in einem Datenbestand entdecken könnte, wäre etwa: „Wer in der IT-Branche tätig ist, verfügt häufig (zu 70 Prozent) über ein Jahres-Bruttoeinkommen über 40.000 Euro“. Die Merkmale „IT-Arbeiter“ und „hohes Einkommen“ treten also häufig gemeinsam auf.

Eine wichtige Anwendung der Assoziationsanalyse ist die Analyse von Warenkorbdaten. Hier wird eine Menge an Warenkörben daraufhin untersucht, ob Zusammenhänge (Regeln) zwischen den gekauften Waren bestehen, also konkret: Welche Produkte haben Kunden bei einem Kauf gemeinsam erworben.

Eine über eine Warenkorbanalyse gefundene Assoziationsregel wäre etwa, dass „in 40 Prozent der Transaktionen, in denen Margarine gekauft wurde, auch Briekäse gekauft wurden“. Hat man durch eine Warenkorbanalyse Gruppen von häufig zusammen verkauften Produkten herausgefunden, lässt sich das Sortiment im Laden oder auf der Website optimieren und konsumgerecht platzieren. Etwa Margarine neben Briekäse.

Ein anderes Data Mining Verfahren ist die Clusteranalyse. Sie wird benützt, um Gruppen von Datensätzen aufzufinden, die Ähnlichkeiten aufweisen.

Die Clusteranalyse klassifiziert also eine Datenmenge in verschiedene Teilmengen, die sich jeweils ähnlich sind. Die Ähnlichkeiten der Objekte innerhalb einer Kategorie sollen möglichst groß, zwischen den Kategorien gering sein.

Abwanderungsgefährdet: Neuronale Netze können aus bereits abgewanderten Kunden Merkmale extrahieren, die diese gemeinsam haben. Selektiert man über diese Faktoren Kunden des aktuellen Kundenbestands, erhält man die aktuell abwanderungsgefährdeten Kunden. Diese können dann gezielt „umsorgt“ werden. (Quelle: CSC)

Mit der Clusteranalyse lassen sich beispielsweise bestimmte Gruppen identifizieren. So ermöglicht es die Clusteranalyse etwa, profitable und weniger profitable Kunden zu unterscheiden. Mit anderen Techniken wie neuronalen Netzen lassen sich die Analysen vertiefen und konkrete Eigenschaften finden, die diese Gruppen genauer voneinander unterscheiden.

Banken können mit neuronalen Netzen aus bereits abgewanderten Kunden Merkmale extrahieren, die diese gemeinsam haben. Selektiert man über diese Faktoren Kunden des aktuellen Kundenbestands, erhält man die aktuell abwanderungsgefährdeten Kunden. Diese können dann gezielt „umsorgt“ werden.

Regelinduktion, Warenkorbanalyse, Clusteranalyse und neuronale Netze sind nur einige der vielen im Data Mining eingesetzten Verfahren. Sie werden ergänzt durch Entscheidungsbäume, genetische Algorithmen, Regessionsanalyse und anderes - Interessante Verfahren, für die wir Sie im Detail auf unsere Artikelserie Business Intelligence verweisen müssen. (ala)