Grundlagenserie Business Intelligence

BI-Methoden (Teil 3): Data Mining im Detail

Prognosen erstellen mit Regressionsmodellen

Die Zielsetzung der Regressionsanalyse ist ähnlich zur Klassifikation, in diesem Fall werden jedoch keine Klassen gebildet. Vielmehr werden Regressionsmodelle erstellt, um zum Beispiel Absatzprognosen oder Umsatzentwicklungen für das nächste Jahr zu berechnen. Dabei wird eine abhängige Variable - wie der Produktabsatz - mit Hilfe von mehreren unabhängigen Variablen „erklärt“ - wie beispielsweise durch Produktpreis oder Kundeneinkommen.

Das Grundkonzept der Regressionsanalyse soll anhand eines einfachen Beispiels dargestellt werden. Mit einem Regressionsmodell soll analysiert werden, inwieweit das Gehalteines leitenden Angestellten von der Anzahl seiner zu betreuenden Mitarbeiterund dem zu erwartenden Gewinnseines Projektes abhängt. „Gehalt“ wäre dabei die abhängige Variable, die von den beiden unabhängigen Variablen „Mitarbeiterzahl“ und „Gewinn“ erklärt werden soll.

Zur Beschreibung des Zusammenhangs zwischen der abhängigen Variablen und den unabhängigen Variablen nutzt man im einfachsten Fall eine lineare Funktion. Bei diesem linearen Regressionsmodell wird angenommen, dass das interessierende Merkmal „Gehalt“ durch eine lineare Kombination der anderen Merkmale erklärt werden kann. Die Gewichtung der Einflüsse der erklärenden Merkmale wird dabei aus den Daten geschätzt.

Ein lineares Regressionsmodell für das Beispiel wäre Gehalt = a * Mitarbeiter + ß * Gewinn

Ziel der Regressionsanalyse ist nun die Bestimmung der unbekannten Parameter a undß. Sie werden aus den vorliegenden Daten errechnet. Dabei wird die Methode der kleinsten Quadrate eingesetzt, die die Summe der quadratischen Fehlerabweichungen der Erfahrungswerte von der Regressionsgeraden minimiert. Je kleiner die Varianz der Fehlerabweichungen von der Regressionsgeraden ist, desto genauer ist die Prognose.

Lineare Regressionsanalyse: Eine Gerade wird so durch die Datenpunkte gelegt, dass die Summe der quadratischen Abweichungen zwischen Gerade und Datenpunkten minimal ist.
Lineare Regressionsanalyse: Eine Gerade wird so durch die Datenpunkte gelegt, dass die Summe der quadratischen Abweichungen zwischen Gerade und Datenpunkten minimal ist.

Das Ergebnis ist eine Regressionsgrade, die visuell betrachtet durch die Menge der Erfahrungswerte verläuft und bei der die Summe der quadratischen Abweichungen zwischen Gerade und Erfahrungswert minimal ist.

Mit Hilfe der Gleichung lässt sich dann für jeden einzelnen Mitarbeiter prüfen, ob sein Gehalt unterhalb der Regressionsgerade liegt - und er somit unterbezahlt ist - oder oberhalb platziert ist.