Freitag, 12. Oktober 2007

Wofür steht das Gütemaß R² in der Regressionsanalyse?

Jede Analysesoftware, mit der sich Regressionsanalysen berechnen lassen – sei es nun SPSS oder NSDStat – gibt neben anderen Kennzahlen stets auch das sogenannte Gütemaß R² aus – doch was bedeutet es?

Das Ziel der Regressionsanalyse ist bekanntlich die Errechnung der linearen Regressionsgleichung – einer Gleichung vom Typ Y = f(x), mit der sich Werte der abhängigen Variablen anhand der unabhängigen Variablen prognostizieren lassen. Nun sagt der Begriff „lineare Regressionsgleichung“ schon aus, dass das Modell nur dann eine gute Prognose liefern kann, wenn ein linearer Zusammenhang zwischen der abhängigen und der unabhängigen Variablen besteht – existiert zwischen diesen kein Zusammenhang oder ist dieser nicht linearer Natur (also beispielsweise exponentiell oder monoton fallend), ist das Modell dagegen relativ nutzlos.

An dieser Stelle kommt das Gütemaß R² ins Spiel – da sich in jedem Fall eine Gleichung aufstellen lässt, deren Nutzen aber von der Stärke des linearen Zusammenhangs abhängt, muss es für den Marktforscher eine Möglichkeit geben, die Güte der Gleichung zu prüfen und damit festzustellen, ob das gefundene Modell etwas taugt. Im Idealfall – einem perfekten linearen Zusammenhang – reihen sich sämtliche Meßwerte aus der Stichprobe wie an einer Perlenschnur aneinander auf und können vollständig über eine lineare Gleichung abgebildet werden. Realistischerweise ist ein solcher Zusammenhang bei einer praktischen Untersuchung kaum zu erwarten – auch bei einem linearen Zusammenhang in der Grundgesamtheit wird es in der Stichprobe rein zufallsbedingt irgendwelche Abweichungen geben.

Dies bedeutet, dass sich die Meßpunkte bzw. deren Streuung mehr oder weniger gut durch die gefundene Gleichung erklären lassen – je nach Güte des Modells. Das Gütemaß R² wird aus dem Verhältnis von durch die Gleichung erklärter Streuung zur Gesamtstreuung errechnet und gibt damit prozentual an, wieviel Streuung durch das gefundene lineare Gleichungssystem aufgeklärt werden. Ein Wert von 0,92 bedeutet beispielsweise, dass 92% der Streuung durch die Gleichung erklärt werden – ein sehr gutes Modell also, verglichen beispielsweise mit einem R² von 0,23.

Ein Problem ergibt sich in der multiplen Regressionsanalyse, also bei der Aufstellung von Regressionsgleichungen mit mehr als einer unabhängigen Variablen. Die Streuungsaufklärung in einem linearen Regressionsmodell sinkt nämlich nicht durch die Hinzufügung von unnützen Variablen – hat ein Modell mit zwei Variablen beispielsweise eine Streuungsaufklärung von 80%, so wird es durch die Hinzufügung von fünf zusätzlichen Variablen keine geringere Streuungsaufklärung erhalten. Ganz im Gegenteil, die fünf Extra-Variablen erhöhen die Aufklärung vielleicht noch um zwei Prozent auf 82. Dies führt in der Praxis leider oft dazu, dass Marktforscher versucht sind, Modelle mit einem hervorragenden Gütemaß zu „kreieren“, indem sie zustätzliche Variablen mit minimalem Beitrag zur Streuungsaufklärung einfließen lassen. Erkennbar sind solche Variablen am „korrigierten R²“, welches von den meisten Statistikprogrammen zusätzlich zum R² ebenfalls standardmäßig ausgegeben wird – doch dessen Interpretation ist Stoff für einen anderen Blogbeitrag.

Keine Kommentare: