A+ R A-

SAS - REG

In einer Regressionsanalyse wird die Beziehung zwischen einer (abhängigen/response)Variable Y und einer Menge von (unabhängigen/predictors, explanatory) Variablen Xn. Die Beziehung wird als Gleichung beschrieben, in der Y durch die Variablen Y quasi vorhergesagt (predicted) wird.

Allerdings hat diese Vorhersage nichts mit einer Vorhersage der Zukunft zu tun (forecasting). Es ist durchaus möglich, dass mit den Daten von 1975 ein Modell entwickelt wurde, um zum Beispiel das Kaufverhalten 1975 vorherzusagen. Möglicherweise haben sich aber wichtige Einflussgrößen im Laufe der Zeit geändert, so dass das Modell 1985 völlig untauglich ist.

In dem nachfolgenden Beispiel wird das Gewicht unnd die Größe (inch) zueinander in Beziehung gesetzt (Beispiel aus SAS Chap. 3).

SAS: proc reg;
model gewicht*größe;
               plot gewicht*größe;


Das Gewicht kann demnach nach der Formel "Gewicht=-143,03 + 3,899*Größe" approximativ vorhergesagt werden.
Wie man an der Funktion leicht erkennen kann, handelt es sich um eine einfache lineare Funktion.

Der Zusammenhang von Größe und Gewicht darf nicht mit einem kausalen Zusammenhang verwechselt werden. Nur in einem Experiment könnte die Kausalität überprüft werden.

Die Regressionskurve wird nach der Methode der kleinsten Quadrate berechnet, so dass die Abstände jeder einzelnen Beobachtung zu der Kurve auf ein Minimum beschränkt wird.

Regressionsanalysen sind sehr komplex, weil man auch quadratische, kubisch etc oder nicht-lineare Funktionen erwägen muss.

Achtung!!!
Regressionsmodell bieten maximal eine grobe Annäherung an die reale Situation. Reale Zusammenhänge sind extrem komplex und häufig kennen wir die relevanten Faktoren gar nicht, die sie beeinflussen.
Meistens beschränken wir uns auf ein Modell, das nur diejenigen Faktoren enthält, die wir  gemessen oder dokumentiert haben.