Grundlagenserie Business Intelligence

BI-Methoden (Teil 2): Data Mining Phasen und Vorgehensschritte

30.04.2008 von Klaus Manhart
Mit Data Mining soll verborgenes, wirtschaftlich nutzbares Wissen in großen Datenbasen entdeckt werden. Dies erfolgt in einem mehrphasigen Prozess. Die wichtigsten Schritte stellen wir Ihnen vor.

Data Mining hat das Ziel, neuartiges, verstecktes Wissen aus großen Datenbeständen zu extrahieren. Dabei sollen Beziehungsmuster wie Regelmäßigkeiten oder Auffälligkeiten in umfangreichen Datenbeständen ermittelt und nutzbar gemacht werden.

Diese Beziehungsmuster sollten für einen möglichst großen Anteil der Datenbasis Geltung haben. Und sie sollten bis dato unbekannte, leicht verständliche Zusammenhänge in den Daten zu Tage fördern, die nicht trivial sind. Hinter der Forderung nach Nichttrivialität der Ergebnisse verbirgt sich der Anspruch, dass gefundene Lösungen auch tatsächlich neues Wissen produzieren und Entdeckungen im engeren Sinne darstellen sollen.

Ziel beim Data Mining ist es also nicht, einzelne Daten aufzulisten oder zu aggregieren. Vielmehr wird immer angestrebt, allgemeine Zusammenhänge zu entdecken und dafür ein Modell zu erstellen. Die im Datenbestand induktiv ermittelten und in Form eines Modells zum Ausdruck gebrachten Zusammenhänge entsprechen dabei den Hypothesen über den durch die Daten abgebildeten Gegenstandsbereich.

Beispielsweise kann Data Mining bei der Analyse der Kundendaten eines Telekommunikationsunternehmens die Hypothese generieren: „Kunden unter 35 Jahren mit einem Vieltelefonierer-Tarif gehören in 80 Prozent der Fälle zu den umsatzstärksten Kunden“.

Knowledge Discovery und Data Mining

Im wissenschaftlichen Kontext wird ein Unterschied gemacht zwischen Knowledge Discovery in Databases (KDD) und Data Mining. Danach ist KDD der allgemeinere, umfassendere Terminus und Data Mining nur ein Teil von KDD.

KDD bezeichnet in der Forschung den gesamten Prozess der Wissensentdeckung. Dieser Prozess zielt auch die Auswahl und Aufbereitung der Daten ein, die Festlegung eines Analyseverfahrens und die Ableitung von explizitem Wissen. Data Mining ist in diesem Verständnis nur ein bestimmter Teil von KDD - nämlich das eigentliche Analyseverfahren, das konkret zur Entdeckung der Zusammenhänge führt.

In der betrieblichen Praxis wird diese Unterscheidung aber kaum getroffen. Beide Begriffe werden hier in der Regel synonym verwendet, wobei der Terminus Data Mining dominiert. In diesem Sinn verstanden, dem wir hier folgen, beinhaltet Data Mining also nicht nur die engere Bedeutung von Verfahren und Werkzeugen der Wissensentdeckung, sondern den gesamten Prozess der Wissensentdeckung in Datenbanken.

Zwei weitere, mögliche Missverständnisse sollten noch angesprochen werden: Eine einfache, klar abgegrenzte und eindeutig definierte Methode ist Data Mining nicht. Vielmehr handelt es sich dabei um sehr komplexe und sensible Prozesse, die sehr viel Erfahrung und Fingerspitzengefühl erfordern. Die Planung ist sehr aufwendig, aber auch notwendig, da spätere Schritte von den vorherigen abhängen. Ein Fehler in der Planung kann am Ende in einem sehr schlechten Ergebnis resultieren.

Data Mining und OLAP: Beide Verfahren nutzen aufbereitete Daten und setzen diese in Entscheidungs- und Handlungsvorschläge um.

Auch die Ergebnisse einer Analyse können weniger klar sein als gemeinhin angenommen wird. Die Resultate der Data Mining-Verfahren bedürfen einer sorgfältigen Bewertung durch den Nutzer. Deshalb muss der Anwender von Data Mining-Verfahren ein genaues Wissen über die zu untersuchenden Daten und die vorliegende Aufgabe besitzen sowie eine konkrete Zielsetzung der Datenanalyse formulieren. In der Praxis arbeiten sehr oft ein Data-Mining-Anwendungsexperte mit einem Domainexperten, also jemand, der sich mit dem zu bearbeitendem Problemfeld auskennt, zusammen.

Das 5-Phasen-Modell - Auswahlphase

Data Mining ist ein mehrphasiger Prozess, der selbst nicht automatisiert abläuft. In der Literatur gibt es einige Vorschläge für Vorgehensmodelle beim Data Mining. Die Grafik zeigt ein einfaches Vorgehensmodell, unterteilt in Planung, Vorbereitung, Mining und Auswertung.

Data Mining Phasen: Data Mining ist Teil eines längeren Prozesses und läuft in mehreren Phasen ab. (Quelle: Pepper Technologies)

Relativ weit verbreitet ist ein 5-Phasen-Modell, das sich in 1) Auswahl, 2) Aufbereitung, 3) Festlegung, 4) Analyse und 5) Interpretation gliedert. Dieses soll nun detaillierter vorgestellt werden.

In der Auswahlphase wird die Ausgangslage und eine für das Data Mining geeignete Aufgabe bestimmt. Was soll erreicht werden? Welches Ziel hat die Analyse? Welche Ergebnisse sollen gewonnen werden?

Eine für Data Mining geeignete Aufgabe kann mehrere Merkmale haben. Ein Kriterium ist, dass das zu entdeckende Wissen nützlich und für das Unternehmen anwendbar ist. Es ist in der Praxis wenig sinnvoll, Zusammenhänge in Datenbeständen zu finden, die vielleicht interessant sind, aber für das Unternehmen wirtschaftlich nicht verwertbar sind.

Ein anderes Kriterium einer geeigneten Aufgabenstellung ist die Angemessenheit der Aufgabe. Sie sollte zum einen allgemein genug sein, um die Generierung von Hypothesen zu ermöglichen. Und sie sollte konkret genug sein, um sie wirtschaftlich sinnvoll nutzen zu können.

Für die ausgewählte Aufgabenstellung wird dann die relevante Datenbasis bestimmt. Dabei ist zu prüfen, ob der Datenbestand für die Bearbeitung der Aufgabe eine geeignete Basis ist. Manchmal sind die erforderlichen Daten nicht oder nur eingeschränkt verfügbar. Zudem sollte geprüft werden, ob eine Analyse möglich und zulässig ist. Manchmal bestehen für Datenbasen rechtliche, organisatorische oder technische Einschränkungen – rechtliche etwa, wenn es um die Verarbeitung personenbezogener Daten geht.

Wichtig ist auch, dass die richtigen Personen in den Data-Mining-Prozess eingebunden werden. Ohne Beteiligung von Experten des jeweiligen Sachgebiets ist ein sinnvolles Data Mining nur in ganz einfachen Fällen möglich. Natürlich ist auch der zu erwartende Aufwand zu berücksichtigen. Data Mining ist rechenintensiv, kostspielig und somit nicht geeignet für kleinere Probleme.

Aufbereitungsphase

In der Aufbereitungsphase müssen die Daten so bearbeitet werden, dass sie für die folgenden Analyseprozesse bereit stehen. Hierzu muss die Qualität der Daten insbesondere hinsichtlich Vollständigkeit und Konsistenz verbessert werden. Im Wesentlichen sind hier die Schritte durchzuführen, wie sie im Artikel über den ETL-Prozess beschrieben wurden, wobei einige Data-Mining-spezifische Besonderheiten zu beachten sind.

Hier noch einmal die wichtigsten Punkte. Ein erster Schritt ist die Integration: Die oft in mehreren Datenquellen abgelegten Daten müssen in eine einheitliche Datenbasis zusammen geführt werden. In einem zweiten Schritt sollten die Daten bereinigt werden. Dabei werden Datenfehler korrigiert.

Dieser Schritt ist besonders beim Data Mining mit Vorsicht anzugehen. Denn die Bereinigung von vermeintlichen oder echten Fehlern kann das Analyseergebnis beeinflussen – etwa dann, wenn mit der Ersetzung einer fehlenden Merkmalsausprägung ein bedeutendes Beziehungsmuster in den Daten gelöscht wird.

Ein dritter Schritt ist die Datenanreicherung. Dabei werden dem Datenbestand weitere zweckmäßige Merkmale hinzugefügt. Dies erfolgt konkret durch Hinzufügen von Merkmalen, die sich aus der vorhandenen Datenbasis ableiten lassen. Oder durch die Aufnahme von Daten aus anderen Quellen wie statistischen Ämtern oder Marktforschungsinstituten.

Im letzten Schritt, der Datenreduktion, sollte die Anzahl der Merkmale des Datenbestandes verringert werden. Der Grund: Je größer die Anzahl der Merkmale, umso komplexer wird die Analyse. Eine Verringerung der Merkmalsanzahl führt zu einer Reduzierung der Analysekomplexität.

Festlegung der Ziele

In der Phase der Festlegung werden die Ziele festgelegt und die Analyseverfahren. Bei der Festlegung der Ziele sind vor allem vier Teilziele relevant, die mit Data Mining Methoden erreicht werden können.

1. Automatische Gruppenbildung (Clustering)

Das Ziel bei der Bildung von Gruppen oder Clustern ist es, die Datensätze so zusammenzufassen, dass die Datensätze innerhalb eines Clusters möglichst ähnlich sind, Datensätze aus unterschiedlichen Clustern hingegen möglichst unähnlich. Die Gruppen sind dabei im vorhinein nicht bekannt, sondern sind das Ergebnis der Analyse. Durch die Entdeckung der Gruppen soll Wissen über Ähnlichkeiten der Objekte entdeckt werden. Gruppenbildung wird konkret in der wirtschaftlichen Praxis dazu eingesetzt, um Kundensegmente mit spezifischem Kaufverhalten zu extrahieren.

2. Klassifikationen vornehmen

Mit Klassifikationsmodellen lassen sich Prognosen zur Klassenzugehörigkeit von Datenobjekten erstellen. Dabei sind die Klassen, anders als bei der Clustermethode, bereits bekannt. Diese Modelle nehmen eine Zuordnung eines Datenobjekts zu einer bestimmten Klasse anhand einiger seiner Merkmale vor. Typisches Beispiel für die Anwendung von Klassifikationsmodellen ist die Kreditwürdigkeitsprüfung. Hierbei wird aus einem existierenden Datenbestand ein Regelsystem generiert. Ein neuer Kunde, der einen Kredit beantragt, wird dann anhand seiner in das Regelsystem eingegebenen Kundendaten automatisch in die Klasse „kreditwürdig“ oder „nicht kreditwürdig“ eingestuft.

3. Zusammenhänge erklären

Zur Erklärung von Zusammenhängen dienen meist Regressionsmodelle. Dabei wird eine abhängige Variable - z.B. Einkommen - erklärt durch eine oder mehrere unabhängige Merkmale - z.B. Schulabschluss, Berufsausbildung, Geschlecht. Das Modell lässt sich dann zur Prognose einsetzen. Für einen männlichen Hochschulabsolventen mit Betriebwirtschaftsabschluss prognostiziert das Modell dann ein bestimmtes Einkommen.

4. Entdecken von Abhängigkeiten

Bei der Entdeckung von Abhängigkeiten besteht die Aufgabe darin, Dependenzen zwischen den Ausprägungen von Merkmalen der Datensätze zu ermitteln. Diese sollen selbstständig aufgefunden werden. Eine Möglichkeit der Abhängigkeitsentdeckung besteht darin, Assoziationsregeln zwischen Attributwerten zu finden nach dem Muster: Wenn die Merkmalsausprägung A auftritt, dann tritt in x Prozent der Fälle auch Ausprägung B auf. Beispielsweise können derartige Regeln Beziehungen zwischen Artikeln in einem Kaufhaus und Eigenschaften von Käufern herausfinden.

Analysen durchführen

Stehen die Ziele fest, können die Analyseverfahren ausgewählt werden. Zur Verfügung stehen Clusterverfahren, Entscheidungsbaumanalyse, Neuronale Netze und Assoziationsregelverfahren, sowie weitere, weniger häufig eingesetzte Methoden. Die Verfahren werden ausführlicher in einem eigenen Beitrag vorgestellt.

Die einzelnen Verfahren unterstützen unterschiedliche Zielsetzungen des Data Mining. So bieten sich neuronale Netze und lineare Regression bei Fragestellungen mit Prognosecharakter an. Kohonen-Netze und regelbasierte Systeme werden oftmals beim Clustering verwendet.

Eine eindeutige Zuordnung der Instrumente nach Aufgabenstellung ist jedoch nicht möglich. Oftmals werden mehrere Data-Mining-Lösungen für dieselbe Aufgabenstellung entwickelt und gegeneinander ausgetestet. Auch die Kombination unterschiedlicher Methoden innerhalb einer Lösung ist möglich.

Ziele und Methoden: Die aufgeführten Ziele lassen sich mit unterschiedlichen Methoden erreichen.

Die zu findenden Muster sollten mehrere der folgenden Eigenschaften erfüllen:

Nicht zuletzt dürfen die Ergebnisse nicht trivial sein. Sehr viele Datenbank-Systeme können Resultate liefern, die alle bis jetzt angeführten Eigenschaften besitzen. Der Unterschied ist, dass diese mit Hilfe von trivialen Methoden berechnet werden, z.B. durchschnittliches Einkommen aller Männer unter 30 Jahren in Deutschland. Beim Data Mining werden aber komplexe und nicht leicht erkenn- und ermittelbare Zusammenhänge entdeckt.

Auswertung und Interpretation

Ziel der letzten Phase ist die Ableitung expliziten Wissens aus den ermittelten Beziehungsmustern und das Verständlichmachen der Ergebnisse der Mining Phase auch für Nichtexperten.

Die Analyseergebnisse sollten zunächst auf ihre Güte geprüft werden. Wie genau sind die Ergebnisse, wie signifikant und wie ist es mit der Generalisierungsfähigkeit bestellt? Haben die Analysen ein erwartetes Ergebnis produziert? Wurden nicht die erwarteten Muster gefunden, muss die Ursache herausgefunden werden und genauer untersucht werden. Eventuell muss dann zu einem früheren Schritt im Data-Mining-Prozess zurückgekehrt werden.

Die Auswertung der Analyseergebnisse umfasst die Darstellung der gefundenen Zusammenhänge in verständlicher Form. Die Visualisierungder oft unübersichtlichen Ergebnisse des Analyseschritts spielt dabei eine wichtige Rolle.

Als letzter Punkt kommt dann die eigentliche Anwendung und Nutzung des gewonnenen Wissens. In kommerziellen Anwendungen wird das aus dem Data-Mining-Prozess gewonnene Wissen oft zur Unterstützung eines Entscheidungsprozesses verwendet. So kann beispielsweise die komplementäre Artikelbeziehung zwischen Bier und Chips („Wer Bier kauft, kauft auch oft Chips“) zur Erreichung der Wissensziele eines Unternehmens und zur Gewinnung eines besseren Kundenverständnisses beitragen.

Fazit

Data Mining zielt darauf ab, in umfangreichen Datenbeständen implizit vorhandenes Wissen zu entdecken und explizit zu machen. Vorgehen und Verfahren können sehr komplex sein, oft arbeitet ein Data Mining Anwendungsexperte mit einem Domainexperten zusammen.

Data Mining ist ein mehrphasiger Prozess, der von der Auswahl der Aufgabe über die Datenaufbereitung und die Methodenwahl bis zur eigentlichen Analyse und zur Interpretation der Ergebnisse reicht. Dieser Prozess ist iterativ und interaktiv.

So bestimmt der Anwender anhand des Ergebnisses einzelner Phasen den weiteren Ablauf des Data Mining Prozesses und kann einzelne Phasen erneut durchlaufen. Zudem ist Data Mining kein automatisches Verfahren. Vielmehr muss der Anwender interaktiv immer wieder eingreifen.

Die Ergebnisse sollten möglichst neue, nicht triviale Zusammenhänge zu Tage fördern und in leicht verständlicher Sprache und kompakten Charts kommuniziert werden. Ziel ist es letztendlich, für ein Unternehmen nutzbringende, wirtschaftlich verwertbare Erkenntnisse aufzudecken. (ala)