Grundlagenserie Business Intelligence

Business Intelligence (Teil 4): BI-Analysemethoden OLAP & Data Mining

20.02.2008 von Klaus Manhart
Um aus Unternehmensdaten geschäftsrelevante Informationen zu generieren, müssen diese entsprechend analysiert werden. Dabei bedient sich BI vor allem der AdHoc-Analyse mit OLAP (Online Analytical Processing) und der Suche nach versteckter Information mit Data Mining.

Stehen die Firmendaten in Data Warehouses und Data Marts aufbereitet und in einem einheitlichen Format zur Verfügung, erfolgt im nächsten Schritt die Analyse der Daten. Eines gleich vorweg: Der gesamte Bereich der BI-gestützten Analyseansätze ist hochkomplex und lässt sich nur schwer strukturieren. Entsprechend gibt es viele Versuche, Ordnung in den Wildwuchs zu bringen.

Als wenig hilfreich haben sich Versuche erwiesen, BI-Analysesysteme nach Anwendungsgebieten wie Kundenwertanalysen und Web-Controlling oder nach organisatorischen Einheiten wie Marketing, Controlling und Personal zu klassifizieren.

Sinnvoller erscheint es, die Analysemethoden anhand von Benutzerklassen zu sortieren. Sie lassen sich dann etwa einteilen in solche für das Low-, Middle- und Top-Management. Weit verbreitet ist die Klassifizierung in modellbasierte und berichtsorientierte Systeme.

Modellorientierte Systeme arbeiten explizit auf Basis von Modellen. Dabei kommen häufig algorithmische Modelle und Methoden aus den Gebieten Operations Research, Künstliche Intelligenz, Statistik und Finanzmathematik zum Einsatz. Im Gegensatz dazu stehen bei berichtsorientierten Systemen nicht Modelle im Vordergrund, sondern die Recherche und Darstellung in Form von aufbereiteten Daten.

Modell- und berichtsorientierte Systeme sind aber nur Teil von generischen Basissystemen, denen wiederum konzeptorientierte Ansätze wie Balanced Scorecards gegenüberstehen. Das Hauptmerkmal von generische BI-Systeme ist, dass sie sich alle als eigenständige Komponenten in umfassende BI-Anwendungen integrieren lassen. Dieser große Bereich der generischen Basissysteme lässt sich unterscheiden in freie Datenrecherchen, Ad-hoc-Analysesysteme, Berichtssysteme und modellgestützte Systeme.

Die Grafik gibt einen Überblick über die vorgestellten Analysemethoden und ihre konzeptionelle Einordnung.

Einordnung: BI-Analysesysteme lassen sich grob in fünf Kategorien sortieren.

Freie Recherche mit Datenbanksprachen

Im einfachsten Fall kann die Analyse der Daten über eine freie Datenrecherche mit einer Datenmanipulationssprache erfolgen. Dabei werden die in Data Warehouses und Data Marts abgelegten Daten direkt recherchiert und abgefragt.

Bei relationalen Datenbanken wird vorzugsweise SQL (Structured Query Language) eingesetzt. SQL erlaubt neben dem Lesen, Einfügen, Löschen und Ändern von Daten –für Analysezwecke wenig relevant– auch die gezielte Abfrage und Gruppierung von Daten.

Zum Beispiel selektiert der SQL-Befehl

SELECT Kfz, Einwohner, Name, Land FROM Stadt, stadt_in_land WHERE Einwohner >= 1000

aus den Input-Tabellen „stadt“ und „stadt_in_land“ die Namen aller Kfz-Besitzer, die in Orten mit mehr als 1000 Einwohner wohnen. Die Grafik zeigt, wie das Ergebnis der Abfrage genau zustande kommt.

Daten selektieren: Die SQL-Select-Anfrage mit abgeleiteten Tabellen und Ergebnistabelle.

Durch seine Rolle als Quasi-Standard ist SQL von großer Bedeutung, da die Sprache weitgehend unabhängig von der benutzten Software verwendet werden kann. Zudem hat SQL eine relativ einfache Syntax und ist semantisch an die englische Umgangssprache angelehnt.

Neben SQL nimmt im BI-Umfeld MDX (Multidimensional Expression) von Microsoft als Abfragesprache noch eine bedeutende Rolle ein, die sich als De-facto-Industriestandard in der Praxis ebenfalls etabliert hat.

Techniknahe Abfragesprachen im BI-Umfeld haben Vor- und Nachteile. Positiv ist die hohe Flexibilität und Performanz von Sprachen wie SQL, da die Operationen direkt im Datenbestand ausgeführt werden. Die Analysergebnisse lassen sich zudem leicht in anderen Systemumgebungen weiterverarbeiten.

Negativ macht sich bemerkbar, dass die Datenmanipulationssprachen einarbeitungsintensiv sind und hohe IT-Kompetenz voraussetzen. Manager und andere IT-Entscheider sind in der Regel nicht gewillt, sich dieses Wissen anzueignen, so dass SQL eher Datenbankadministratoren und Powerusern, allenfalls dem Low-Management, vorbehalten bleibt.

Ad-Hoc-Analyse: OLAP

Im Rahmen der professionellen Datenanalyse stehen vor allem zwei Verfahren im Vordergrund: OLAP und Data Mining. OLAP (Online Analytical Processing) konzentriert sich bei der Analyse hauptsächlich auf das Berichtswesen und ist einer der bekanntesten Vertreter moderner Ad-hoc-Auswertungssysteme. Charakteristisch für Ad-hoc-Systeme ist, dass der Analyst zu Beginn oftmals nicht genau weiß, welche Daten er im Weiteren untersuchen soll.

Im Vordergrund steht bei OLAP die Durchführung komplexer Analysevorhaben, die ein sehr hohes Datenaufkommen verursachen, die gleichzeitig aber eine flexible, intuitive Auswertung ermöglichen sollen. Die Daten werden aus den Datenquellen in einem multidimensionalem Datenwürfel zusammengefasst und dann in Berichten mit Tabellen und Grafiken präsentiert. Der Anwender kann die Kriterien, die für ihn interessant sind, selektieren und miteinander kombinieren.

Das OLAP-Konzept geht ursprünglich auf den Datenbank-Spezialisten Edgar F. Codd zurück. Dieser stellte 1993 eine Reihe von Eigenschaften für OLAP-Systeme auf, die später auf fünf wesentliche Faktoren („FASMI“) reduziert wurden. Dies sind im einzelnen:

Als Folge der fünf geforderten Features sind OLAP-Datenbanken performant und leicht bedienbar. Die Grafik zeigt die typischen Eigenschaften von OLAP im Überblick.

Schnell und intuitiv: Die fünf Anforderungen an eine OLAP-Datenbank erzeugen schnelle Abfragen und eine intuitive Bedienung.

Der OLAP-Cube

Die Daten werden für OLAP-Analysen nicht wie im relationalen Datenmodell als flache Tabellen, sondern in einem multidimensionalen Datenwürfel, dem „Cube“, präsentiert. Auf diese Weise können die Daten aus unterschiedlichen Perspektiven und in diversen Detaillierungsstufen betrachtet werden. Betriebswirtschaftliche Kennzahlen wie Umsatz oder Kosten lassen sich so anhand von Dimensionen wie Kunden, Regionen oder Zeit mehrdimensional analysieren.

Vor allem ist diese Art der Datenpräsentation auch einfach zu verstehen. Die Abbildung zeigt eine solchen multidimensionalen Cube. Die Dimensionen „Produkt“, „Region“ und „Zeit“ entsprechen den Achsen und spannen den Würfel auf. Jede Zelle des Würfels enthält genau einen Wert, der zum Beispiel den Umsatz von Produkt 1 in der Region Ost angibt.

Daten als Würfel: Ein OLAP-Cube mit drei typischen Dimensionen.

Mit Hilfe von OLAP-Funktionen kann der Würfel analysiert werden. Die erforderlichen Datensätze können durch verschiedene Operationen erzeugt werden, etwa indem man einen Teilwürfel herausschneidet („Slicing“) oder den Datenwürfel rotiert („Dicing“).

Bestimmte Sichten, etwa das Betrachten eines bestimmten Produktes oder eines bestimmten Jahres, erhält man durch das Herausschneiden von Ebenen (siehe Grafik).

Sichten erzeugen: Der OLAP-Cube erlaubt es, auf einfache Weise verschiedene Sichten auf Daten zu generieren.

Die Analyseergebnisse lassen sich auch schrittweise verfeinern bzw. verdichten, was als „Drill down“ bzw. „Roll-up“ bezeichnet wird. Beim Roll-Up werden alle Einzelwerte zu einem weiter oben liegenden Hierarchieattribut verdichtet. Die Funktion Drill-Down bewirkt eine detailliertere Darstellung der Daten.

Roll-up und Drill down: Daten lassen sich verdichten (Roll-up) oder detaillierter darstellen (Drill down).

Mit Hilfe der beschriebenen Operationen kann der Benutzer interaktiv durch Drag & Drop der Dimensionsschaltflächen beliebige Auf- und Einsichten in den Datenwürfel erreichen.

OLAP-Umsetzungskonzepte

Die physische Umsetzung dieser logischen Konstrukte erfolgt direkt in einer multidimensionalen Datenbank - durch besondere Modellierungstechniken in einer relationalen Datenbank oder in einer Zusatzkomponente für relationale Datenbanken.

Innerhalb der OLAP-Systeme gibt es zwei wesentliche Varianten: ROLAP (Relationales OLAP) Systeme bauen typischerweise auf SQL-basierten relationalen Datenbanksystemen wie Oracle und IBM DB2 UDB auf. MOLAP-Systeme (multidimensionales OLAP) hingegen nutzen letztlich proprietäre Datenbanken.

Jeder Typ hat seine Vor- und Nachteile. MOLAP kann schnell Aggregationen, also Zusammenfassungen von Daten, berechnen. ROLAP hingegen skaliert besser, ist dafür aber langsamer als MOLAP. Dies liegt bei ROLAP daran, dass die Daten neben den teils vielleicht schon vorausberechneten Aggregationen in einer vielseitigen, aber langsameren Datenbank gespeichert vorliegen. Bei MOLAP sind diese Daten hingegen in geeigneter, schnell zugänglicher Form meist direkt im Dateisystem abgespeichert.

Eine weiterer Architekturtyp ist DOLAP („D“ für Desktop). Hierbei werden die Basisdaten zunächst lokal in den Analyseclient importiert, um eine lokale Analyse vollziehen zu können. Als Nachteil kann hier eine unter Umständen zu schwache Hardwareauslegung gesehen werden.

Zeitintensiv bei OLAP ist allerdings nicht die Auswertung der Daten, sondern die Erstellung und Auffrischung der angelegten Cubes. Mittlerweile existiert eine Vielzahl an Front-Ends, die direkt auf OLAP-Cubes zugreifen und die darin enthaltenen Daten anhand von Dimensionen und Kennzahlen flexibel und mit sehr geringen Antwortzeiten auswerten können.

Modellorientierte Analysesysteme – Decision Support

Stehen bei der freien Datenbankrecherche und den OLAP-Systemen eher kleinere Auswertungen im Vordergrund, erfordern komplexe Analysen modellgestützte Systeme. Diese weisen eine ausgeprägte algorithmische oder regelbasierte Ausrichtung auf. Zu dieser Kategorie gehören Decision Support Systeme, Expertensysteme und Data Mining Verfahren.

Decision Support Systems (DSS, deutsch: Entscheidungsunterstützungssysteme) sollen Manager in schlecht strukturierten Entscheidungssituationen assistieren. Ein Problem ist schlecht strukturiert, wenn sich Ziele, Vorgehensweisen sowie Input- und Outputgrößen nicht genau spezifizieren lassen.

Um solche Probleme besser in Griff zu bekommen, werden mit Hilfe von Daten und Modellen relevante Information gefiltert, konzentriert, aufbereitet und innerhalb kürzester Zeit zur Verfügung gestellt. DSS sind im allgemeinen interaktiv, das heißt, es läuft ein Mensch-Maschine-Dialog ab.

Da es sich bei den Anwendern in der Regel um Manager handelt, bei denen weder tiefes Verständnis noch große Erfahrung mit Informationstechnologie unterstellt werden kann, müssen Decision Support Systeme leicht erlernbar und bedienbar sein. Anwendung finden Decision Support Systeme im technisch-wissenschaftlichen und im betriebswirtschaftlichen Bereich – bei letzterem vor allem in der Produktions- und Finanzplanung, dem Portfolio-Management und im Marketing.

Entscheidungsunterstützung: Frontend eines Decision Support Systems zur Analyse seismischer Risiken (Quelle: Istituto di Ricerca sul Rischio Sismico, Milano, Italy)

Expertensysteme

Expertensysteme (XPS) sind ebenfalls modellbasiert ausgerichtet, haben aber einen anderen Fokus als DSS: XPS modellieren das Wissen menschlicher Experten. Abgebildet wird dabei nicht nur das eigentliche Wissen einer bestimmten Domäne, sondern auch das Wissen um Problemlösungsmechanismen.

Die Abbildung zeigt die Komponenten eines Expertensystems: Die Wissensbasis mit dem Wissen des Experten, einer Inferenzkomponente zur Ableitung neuer Schlussfolgerungen und der Erklärungskomponente zur Begründung der Schlüsse.

XPS: Die Hauptkomponenten eines Expertensystems mit dem bereichspezifischen Wissen, der Inferenzmaschine und der Erklärungskomponente.

Nach den überzogenen Erwartungen an solche Systeme in den achtziger Jahren werden Expertensysteme heute eher selten und wenn, nur in gut strukturierten Problemfeldern eingesetzt. Als primäre Aufgabe von Expertensystemen werden Hilfestellungen erwartet - bei Entscheidungsfindung durch das Anbieten von Handlungsempfehlungen.

Expertensysteme werden heute vor allem im Bank- und Versicherungsbereich bei der Prüfung der Kreditwürdigkeit angewendet und für Risikoanalysen. Häufig sind sie auch Teil integrierter Anwendungen, etwa in Form von interaktiven Hilfesystemen oder intelligenten Agenten.

Data Mining – nach Mustern schürfen

Das bekannteste und bedeutendste modellorientierte Verfahren ist Data Mining. Data Mining-Werkzeuge sind darauf spezialisiert, unbekannte Muster und Zusammenhänge in größeren Datensammlungen zu finden. Der Name „Data Mining“ kommt daher, dass man wie in einer Edelstein-Mine den Gesamt-Datenbestand „abschürft“.

Bildlich gesprochen kann man sich Data Mining als elektronischen Bergbau vorstellen, weil in einem Datenberg mit Hilfe einer Software zwar keine Edelsteine gesucht werden, aber nach unerwarteten Zusammenhängen zwischen den Daten.

In der Regel ist Data Mining nicht hypothesengetrieben, der Analyst muss also nicht von vornherein wissen, wonach er sucht. Vielmehr führen Data Mining Verfahren den Anwender von sich aus zu den vermeintlich interessanten Informationen. Data Mining arbeitet somit grundsätzlich induktiv und datengesteuert. Man geht immer von den vorliegenden Daten aus und leitet daraus Hypothesen und Zusammenhänge ab.

Banken verwenden Data Mining beispielsweise zur Erkennung von Kreditkartenbetrug und für die Profilerstellung von Kunden, die mit gewisser Wahrscheinlichkeit ihre Kreditverbindlichkeiten nicht erfüllen können. Im Marketing wird Data Mining genutzt um Absatzprognosen, Kundensegmentierungen, Warenkorbanalysen und Missbrauchserkennungen durchzuführen. Im Personalwesen können Personalauswahl und Mitarbeiterfehlleistungserkennung durch Data Mining unterstützt werden,

Einen starken Aufwind erlebte Data Mining mit Web-Anwendungen - hier hat sich auch der Begriff Web Mining etabliert. Im einfachsten Fall liefert Web Mining Antworten auf Fragen wie: Welche Webseiten sind besonders beliebt, wie wird eine Web-Site von den Besuchern genutzt, wie verlaufen typische Navigationspfade und wo steigen Benutzer häufig aus.

Wissen entdecken via Data Mining: Aus Datensammlungen werden Regeln und Zusammenhänge generiert (Quelle: Tobias Scheffer, Uni Berlin).

Data Mining Verfahren

Data Mining Methoden entstammen im wesentlichen der Statistik, dem maschinellen Lernen, der Künstlichen Intelligenz und der klassischen Mustererkennung. Die Methoden im einzelnen sind als solche nicht neu, sondern wurden teilweise schon vor Jahrzehnten entwickelt.

Was können diese Verfahren nun aufdecken? Vor allem Regeln, Gruppen, Abhängigkeiten, Verbindungen oder zeitliche Muster lassen sich aus den Daten extrahieren.

Besonders häufig angewendet wird die Assoziationsanalyse mittels Regelinduktion. Durch maschinelles Lernen wird dabei versucht, aus den Daten so genannte Assoziationsregeln zu generieren, die beschreiben, welche Gruppen von Objekten oder Eigenschaften häufig gemeinsam auftreten. „Wer in der IT-Branche tätig ist, verfügt häufig (zu 70 Prozent) über ein Jahres-Bruttoeinkommen über 40.000 Euro“ wäre eine solche Regel, die ein Data Mining Tool entdecken könnte.

Eine häufige Anwendung der Regelinduktion ist die Analyse von Warenkorbdaten. Hierbei wird eine Menge an Warenkörben daraufhin untersucht, ob Zusammenhänge (Regeln) zwischen den gekauften Waren bestehen, also konkret: Welche Produkte haben Kunden bei einem Kauf gemeinsam erworben. Eine über eine Warenkorbanalyse gefundene Assoziationsregel könnte etwa lauten, dass „in 40 Prozent der Transaktionen, in denen Milch, Brot und Butter gekauft wurde, auch Kaffee gekauft wurde“.

Warenkorbanalysen stellen die beste Möglichkeit bereit, das Kaufverhalten zu analysieren und Kundenbedürfnisse aufzuspüren. Hat man durch eine Warenkorbanalyse beispielsweise Gruppen von häufig zusammen verkauften Produkten herausgefunden, lässt sich das Sortiment im Laden oder auf der Website optimieren und konsumgerecht platzieren. Ordern Käufer von Madonna-CDs auch häufig solche von Britney Spears, werden beide zusammen angeboten.

Regeln erkennen: Mit Assoziationsregeln lassen sich auffällige Zusammenhänge aus Daten extrahieren (Quelle: CSC).

Gruppenbildung

Ein anderes Data Mining Verfahren ist die Clusteranalyse. Sie wird benützt, um Gruppen von Datensätzen aufzufinden, die Ähnlichkeiten aufweisen. Die Ähnlichkeiten der Objekte innerhalb einer Kategorie sollen möglichst groß, zwischen den Kategorien gering sein.

Mit der Clusteranalyse lassen sich beispielsweise bestimmte Gruppen identifizieren. Ein einfaches Exempel für eine in einer Kundendatenbank gefundene Gruppe könnte etwa folgendermaßen aussehen:

Gruppe-020: (N=103)
Bestellhäufigkeit = selten
durchschn-Bestellvol < 100
Alter > 45

Hier hat das Tool eine ältere Kundengruppe mit schwacher Bestellfrequenz gefunden. Die Clusteranalyse ermöglicht es also, profitable und weniger profitable Kunden zu unterscheiden. Mit anderen Techniken wie neuronalen Netzen lassen sich die Analysen vertiefen und konkrete Eigenschaften finden, die diese Gruppen genauer voneinander unterscheiden. Diese Eigenschaften können zum Beispiel darüber Auskunft geben, was profitable von nicht profitablen Besuchern auseinander hält.

Gruppenbildung: Die Clusteranalyse ermöglicht es, den Kundenbestand von Banken in Gruppen zu segmentieren (Quelle: CSC).

Mit Clusteranalyse und Regressionsverfahren können bestehende Kunden in immer neue Gruppen aufgeteilt werden. Sie sind für die Zielgruppenbildung optimal einsetzbar. So kann ein Online-Shop ausgehend von der Bestellung von DVD-Playern vorhersagen, ob für diesen Haushalt Sonderkataloge mit speziellen Sortimenten interessant sein könnten. In der Folge gehen die Direct-Mail-Aussendungen nur an die Personengruppen, die den größten Response erwarten lassen.

Abwanderungsgefährdet: Neuronale Netze können aus bereits abgewanderten Kunden Merkmale extrahieren, die diese gemeinsam haben. Selektiert man über diese Faktoren Kunden des aktuellen Kundenbestands, erhält man die aktuell abwanderungsgefährdeten Kunden. Diese können dann gezielt „umsorgt“ werden (Quelle: CSC).

Regelinduktion, Warenkorbanalyse, Clusteranalyse und neuronale Netze sind nur einige der vielen im Data Mining eingesetzten Verfahren. Sie werden ergänzt durch Entscheidungsbäume, genetische Algorithmen, Regessionsanalyse und anderes. Die Grafik gibt einen Überblick über die häufigsten Verfahren und ihre Anwendungen.

Überblick: Fragestellungen und mögliche Modelle und Methoden ihrer Bearbeitung (Quelle: Pepper Technologies).

Fazit

Zur Datenanalyse stehen eine ganze Reihe von Methoden zur Verfügung. Die direkte Abfrage mit Datenmanipulationssprachen ist wenig nutzerfreundlich und dürfte nur Poweruser und technikaffine Entscheider, weniger aber das Top-Management, ansprechen.

Die beiden wichtigsten Methoden sind OLAP und Data Mining. OLAP lässt sich zur Ad Hoc Analyse von kleineren Datenmengen nutzen. Der OLAP-Cube ermöglicht dabei eine recht intuitive Auswertung der Daten.

Data Mining ist zugeschnitten auf die Analyse größerer Daten. Das Ziel ist, bestimmte Muster im Datengebirge zu erkennen. Die dort eingesetzten Methoden sind hochkomplex und entstammen verschiedenen wissenschaftlichen Disziplinen. (ala)