Grundlagenserie Business Intelligence

BI-Methoden (Teil 3): Data Mining im Detail

Assoziationsanalyse – Abhängigkeiten entdecken

Mit der Assoziationsanalyse sollen Abhängigkeiten zwischen den Datensätzen eines Datenbestandes entdeckt werden. Diese Abhängigkeiten werden durch Wenn-dann-Regeln beschrieben.

Eine Wenn-dann-Regel hat die Struktur: „Wenn Item A vorkommt, dann tritt auch Item B auf.“ Ein Item ist dabei die Ausprägung eines Attributwertes eines Datensatzes. Ein Beispiel für eine einfache Regel wäre: „Wenn ein Kunde Bier kauft, dann kauft er in 60 Prozent der Fälle auch Chips“.

Diese Beziehungen werden nicht als Hypothesen angenommen, sondern sollen mit der Assoziationsanalyse aus den Daten entdeckt werden. Erst nachdem ein auffälliges Muster gefunden wurde, wird untersucht, ob es sich wirklich um eine Abhängigkeit handelt und falls ja, Assoziationsregeln dazu aufgestellt.

Assoziationsregeln werden durch Support und Konfidenz bewertet. Der Supportwert ist die Maßzahl dafür, wie viele Datensätze im Verhältnis zu den Gesamtdaten diese Regel unterstützen. Er gibt also Auskunft über die Stärke des Zusammenhangs. 100 Prozent wäre ein deterministischer, 10 Prozent ein schwacher Zusammenhang. Im ersten Fall gilt die Regel immer, im letzten Fall nur in 10 Prozent.

Der zweite wichtige Wert, der Konfidenzwert, sagt aus, wie viele Datensätze diese Regel unterstützen, im Verhältnis zu den Datensätzen die nur die Prämisse der Regel supporten. Das folgende Beispiel illustriert diese abstrakten Ausführungen: