Grundlagenserie Business Intelligence

BI-Methoden (Teil 2): Data Mining Phasen und Vorgehensschritte

Knowledge Discovery und Data Mining

Im wissenschaftlichen Kontext wird ein Unterschied gemacht zwischen Knowledge Discovery in Databases (KDD) und Data Mining. Danach ist KDD der allgemeinere, umfassendere Terminus und Data Mining nur ein Teil von KDD.

KDD bezeichnet in der Forschung den gesamten Prozess der Wissensentdeckung. Dieser Prozess zielt auch die Auswahl und Aufbereitung der Daten ein, die Festlegung eines Analyseverfahrens und die Ableitung von explizitem Wissen. Data Mining ist in diesem Verständnis nur ein bestimmter Teil von KDD - nämlich das eigentliche Analyseverfahren, das konkret zur Entdeckung der Zusammenhänge führt.

In der betrieblichen Praxis wird diese Unterscheidung aber kaum getroffen. Beide Begriffe werden hier in der Regel synonym verwendet, wobei der Terminus Data Mining dominiert. In diesem Sinn verstanden, dem wir hier folgen, beinhaltet Data Mining also nicht nur die engere Bedeutung von Verfahren und Werkzeugen der Wissensentdeckung, sondern den gesamten Prozess der Wissensentdeckung in Datenbanken.

Zwei weitere, mögliche Missverständnisse sollten noch angesprochen werden: Eine einfache, klar abgegrenzte und eindeutig definierte Methode ist Data Mining nicht. Vielmehr handelt es sich dabei um sehr komplexe und sensible Prozesse, die sehr viel Erfahrung und Fingerspitzengefühl erfordern. Die Planung ist sehr aufwendig, aber auch notwendig, da spätere Schritte von den vorherigen abhängen. Ein Fehler in der Planung kann am Ende in einem sehr schlechten Ergebnis resultieren.

Data Mining und OLAP: Beide Verfahren nutzen aufbereitete Daten und setzen diese in Entscheidungs- und Handlungsvorschläge um.
Data Mining und OLAP: Beide Verfahren nutzen aufbereitete Daten und setzen diese in Entscheidungs- und Handlungsvorschläge um.

Auch die Ergebnisse einer Analyse können weniger klar sein als gemeinhin angenommen wird. Die Resultate der Data Mining-Verfahren bedürfen einer sorgfältigen Bewertung durch den Nutzer. Deshalb muss der Anwender von Data Mining-Verfahren ein genaues Wissen über die zu untersuchenden Daten und die vorliegende Aufgabe besitzen sowie eine konkrete Zielsetzung der Datenanalyse formulieren. In der Praxis arbeiten sehr oft ein Data-Mining-Anwendungsexperte mit einem Domainexperten, also jemand, der sich mit dem zu bearbeitendem Problemfeld auskennt, zusammen.