Statistik: Voraussetzungen der Regressionsanalyse

Statistik verfolgt u.a. das Ziel, Muster in einer Grundgesamtheit aufzuzeigen. Zwei Variablen, die man miteinander in Verbindung bringt, in dem man z.B. für jeden Befragten ihren jeweiligen Wert in einem Koordinatenkreut abträgt, produzieren auf diese Weise eine Punktewolke, denn Befragte erreichen unterschiedliche Werte und Wertkombinationen auf beiden Variablen. Die Frage, ob sich ein Muster, ein Zusammenhang zwischen beiden Variablen finden lässt, kann auf unterschiedlichen Wegen beantwortet werden. Vielleicht reicht bereits eine graphische Darstellung um zu sehen, dass die Werte der Verteilung um zwei Punkte klumpen. Vielleicht ist die Punktewolke zwischen den beiden Variablen zu dispers, als dass man sie durch einfache Betrachtung quantifizieren kann. In Fällen, wie dem letzten, kann man dann, wenn das Skalenniveau es zulässt, versuchen, den Zusammenhang zwischen beiden Variablen als einen linearen Zusammenhang z.B. mit einer linearen Regression zu beschreiben. Indes basiert die lineare Regression ihrerseits auf einer Vielzahl von Voraussetzungen, die sich aus den theoretischen Annahmen, auf denen die Regression basiert, ableiten. Jürgen Jansen und Wilfried Laatz haben eine gute Beschreibung dieser Annahmen und ihrer Konsequenzen gegeben:

“In der Regel hat die lineare Regressionsanalyse ein anspruchsvolleres Ziel als die reine deskriptive Beschreibung von Zusammenhängen zwischen Variablen mittels einer linearen Gleichung. In der Regel interessiert man sich für den Zusammenhang zwischen der abhängigen und den unabhängigen Variablen im allgemeineren Sinne. Die per Regressionsanalyse untersuchten Daten werden als eine reine Zufallsstichprobe aus einer realen bzw. bei manchen Anwendungsfällen hypothetischen Grundgesamtheit aufgefasst. Die Grundlagen des stichprobentheoretischen bzw. stochastischen Modells der linearen Regressionsanalyse sollten nun etwas genauer betrachtet werden …

Für die Grundgesamtheit wird postuliert, dass ein linearer Zusammenhang zwischen abhängiger und unabhängiger Variablen besteht und dieser additiv von einer Zufallsvariable überlagert wird. So wird beispielsweise als Ergebnis theoretischer Analyse postuliert, dass der makroökonomische Konsum der Haushalte im wesentlichen linear vom verfügbaren Einkommen und vom Zinssatz abhängig ist.

[…]

Der Regressionskoeffizient ß1 gibt für die Grundgesamtheit an, um wieviel der Konsum steigt, wenn bei Konstanz des Zinssatzes das verfügbare Einkommen um eine Einheit steigt. Daher bezeichnet man ihn auch als partiellen Regressionskoeffizienten. Analog gibt ß2 an, um wieviel der Konsum sinkt bei Erhöhung des Zinssatzes um eine Einheit und Konstanz des verfügbaren Einkommens.

Damit die Methode der kleinsten Quadrate zu bestimmten gewünschten Schätzeigenschaften (beste lineare unverzerrte Schätzwerte, engl. BLUE) führt, sowie Signifikanzprüfungen für die Regressionskoeffizienten durchgeführt werden können, werden für die Zufallsvariable εi folgende Eigenschaften ihrer Verteilung vorgesehen:

E(εi) = 0 für i = 1,2,3,…

Der bedingte Erwartungswert (E), d.h. der Mittelwert der Verteilung von ε ist für jede Beobachtung der nicht-stochastischen Wert xi gleich 0.

E(εi2) = σε2= konstant für i = 1,2,3,…

Die Varianz der Verteilung der Zufallsvariable σε2 ist für jede Beobachtung der nicht-stochastischen Werte xi konstant. Sie ist damit von der Höhe der erklärenden Variablen abhängig. Ist diese Bedingung erfüllt, so besteht Homoskedastizität der Fehlervariable. Ist die Bedingung nicht erfüllt, so spricht man von Heteroskedastizität.

E(εi εj) = 0 für i = 1, 2, … und j = 1, 2,3 für i ≠ j

Die Kovarianz der Zufallsvariable ist für verschiedene Beobachtungen i und j gleich 0, d.h. die Verteilungen der Zufallsvariable für i und für j sind unabhängig voneinander. Ist die Bedingung nicht erfüllt, so besteht Autokorrelation der Fehlervariable ε: εi und εj korrelieren.

εi ist für die gegebenen Beobachtungen i = 1, 2,3 normalverteilt. Diese Voraussetzung ist nur dann erforderlich, wenn Signifikanzprüfungen der Regressionskoeffizienten durchgeführt werden sollen“.

(Jansen & Laatz, Statistische Datenanalyse mit SPSS für Windows, S.369-370)