Dienstag, 23. Oktober 2007

Marktforschung ist viel zu kompliziert!!!

Oder zumindest ist sie das in Österreich.... Eine interessante Meldung aus unserem Nachbarland: An der Kepler-Uni fallen die Studenten massenhaft durch die Prüfungen – so hat es in der Marktforschungs-Klausur für Sozialwissenschaftler glatte 93 Prozent aller Teilnehmer erwischt (von 47 Kandidaten haben nur drei die Klausur bestanden) – und das bei einer Nachprüfung, für die (erfahrungsgemäß) meist schon etwas mehr gelernt wird. Als jemand der selbst Marktforschung und Statistik unterrichtet, kann ich mich hier der Auffassung des Artikelschreibers nur anschließen: Die Quote ist schon erstaunlich hoch....

Soweit ich mich erinnere, lag die Durchfallquote in den beiden bisher von mir gestellten Klausuren in der Vertiefungsrichtung Marktforschung bei etwas über 5 Prozent (wohlgemerkt, beim ersten Versuch), durch meinen letzten Einführungskurs in die Datenanalyse mit SPSS ist sogar kein einziger Student gefallen... Ist nun Marktforschung in Österreich zu schwierig, oder machen meine Kollegen und ich es den Studenten hier zu leicht....? Angesichts der im Artikel beschriebenen allgemeinen Situation an der Kepler-Uni – die Durchfallwelle beschränkt sich dort ja nicht nur auf die Marktforschung – vermute ich das Problem eher in Österreich als bei uns, auch wenn einen die Zahlen direkt dazu animieren, in die nächste Klausur nochmal eine extra-schwierige Aufgabe zu integrieren....

Ganz so einfach sollte eine Marktforschungs-Klausur dann ja auch wieder nicht zu bestehen sein – wäre das interessanteste Fach gleichzeitig auch noch das einfachste, könnten wir uns ja vor Studenten kaum retten.... Alle Klausurenschreiber, ob hier oder in Österreich, sind übrigens herzlich dazu eingeladen, den RSS-Feed für das Statistikberatungs-Blog zu abonnieren, das Marktforschungs-Wiki zu besuchen (und mit neuen Artikeln zu füllen) oder von den Vorlesungsunterlagen auf der Statistikberatungs-Webseite Gebrauch zu machen.

Freitag, 12. Oktober 2007

Wofür steht das Gütemaß R² in der Regressionsanalyse?

Jede Analysesoftware, mit der sich Regressionsanalysen berechnen lassen – sei es nun SPSS oder NSDStat – gibt neben anderen Kennzahlen stets auch das sogenannte Gütemaß R² aus – doch was bedeutet es?

Das Ziel der Regressionsanalyse ist bekanntlich die Errechnung der linearen Regressionsgleichung – einer Gleichung vom Typ Y = f(x), mit der sich Werte der abhängigen Variablen anhand der unabhängigen Variablen prognostizieren lassen. Nun sagt der Begriff „lineare Regressionsgleichung“ schon aus, dass das Modell nur dann eine gute Prognose liefern kann, wenn ein linearer Zusammenhang zwischen der abhängigen und der unabhängigen Variablen besteht – existiert zwischen diesen kein Zusammenhang oder ist dieser nicht linearer Natur (also beispielsweise exponentiell oder monoton fallend), ist das Modell dagegen relativ nutzlos.

An dieser Stelle kommt das Gütemaß R² ins Spiel – da sich in jedem Fall eine Gleichung aufstellen lässt, deren Nutzen aber von der Stärke des linearen Zusammenhangs abhängt, muss es für den Marktforscher eine Möglichkeit geben, die Güte der Gleichung zu prüfen und damit festzustellen, ob das gefundene Modell etwas taugt. Im Idealfall – einem perfekten linearen Zusammenhang – reihen sich sämtliche Meßwerte aus der Stichprobe wie an einer Perlenschnur aneinander auf und können vollständig über eine lineare Gleichung abgebildet werden. Realistischerweise ist ein solcher Zusammenhang bei einer praktischen Untersuchung kaum zu erwarten – auch bei einem linearen Zusammenhang in der Grundgesamtheit wird es in der Stichprobe rein zufallsbedingt irgendwelche Abweichungen geben.

Dies bedeutet, dass sich die Meßpunkte bzw. deren Streuung mehr oder weniger gut durch die gefundene Gleichung erklären lassen – je nach Güte des Modells. Das Gütemaß R² wird aus dem Verhältnis von durch die Gleichung erklärter Streuung zur Gesamtstreuung errechnet und gibt damit prozentual an, wieviel Streuung durch das gefundene lineare Gleichungssystem aufgeklärt werden. Ein Wert von 0,92 bedeutet beispielsweise, dass 92% der Streuung durch die Gleichung erklärt werden – ein sehr gutes Modell also, verglichen beispielsweise mit einem R² von 0,23.

Ein Problem ergibt sich in der multiplen Regressionsanalyse, also bei der Aufstellung von Regressionsgleichungen mit mehr als einer unabhängigen Variablen. Die Streuungsaufklärung in einem linearen Regressionsmodell sinkt nämlich nicht durch die Hinzufügung von unnützen Variablen – hat ein Modell mit zwei Variablen beispielsweise eine Streuungsaufklärung von 80%, so wird es durch die Hinzufügung von fünf zusätzlichen Variablen keine geringere Streuungsaufklärung erhalten. Ganz im Gegenteil, die fünf Extra-Variablen erhöhen die Aufklärung vielleicht noch um zwei Prozent auf 82. Dies führt in der Praxis leider oft dazu, dass Marktforscher versucht sind, Modelle mit einem hervorragenden Gütemaß zu „kreieren“, indem sie zustätzliche Variablen mit minimalem Beitrag zur Streuungsaufklärung einfließen lassen. Erkennbar sind solche Variablen am „korrigierten R²“, welches von den meisten Statistikprogrammen zusätzlich zum R² ebenfalls standardmäßig ausgegeben wird – doch dessen Interpretation ist Stoff für einen anderen Blogbeitrag.

Dienstag, 9. Oktober 2007

Empirix kündigt Handbuch der deutschen Marktforschung und Jobbörse an

Unter der Adresse www.empirix.net finden potenzielle Kunden auf der Suche nach Marktforschern und Interviewern schon seit etlichen Jahren eine Vielzahl eingetragener Dienstleister. Als wissenschaftlicher Marktforschungs-Service ist natürlich auch die Statistikberatung Reinboth dort mit einem kleinen Eintrag vertreten – da ich ansonsten aber eher selten nach anderen Dienstleistern suche, habe ich die Empirix-Webseite schon eine ganze Weile nicht mehr aufgesucht.

Gestern bin ich beim Surfen auf einer Institutsseite wieder über den Link gestolpert – und siehe da: abgesehen von einer verbesserten Optik und Navigation findet sich auf der Empirix-Webseite neuerdings auch die Ankündigung, demnächst ein druckbares Verzeichnis aller eingetragenen 1500 Marktforscher und Marktforschungsinstitute sowie eine Marktforschungs-Jobbörse anbieten zu wollen – sicherlich zwei interessante Angebote, so sie denn tatsächlich umgesetzt werden sollten. Ich werde auf jeden Fall in den nächsten Monaten öfter mal vorbeisurfen und mich auf dem Laufenden halten – wer weiss, für welches Projekt ich doch mal einen Interviewer brauche...

Donnerstag, 4. Oktober 2007

Einfaktorielle Varianzanalyse mit SPSS – oder mit SPASS?

Der Softwarehersteller Softnik bietet unter www.goodkeywords.com eine hauptsächlich für SEOs interessante kostenlose Software zur Keyword Analysis an. Mit diesem Programm lässt sich beispielsweise leicht feststellen, wie viele Suchanfragen es im Schnitt pro Monat nach einem Begriff wie „Varianzanalyse“ gibt und in Kombination mit welchen anderen Wörtern nach der Varianzanalyse gesucht wird, also beispielsweise „Varianzanalyse“ und „einfaktoriell“.

Bei der Analyse der Suchanfragen nach einigen wichtigen statistischen Methoden stößt man dann auch schnell auf Interessantes: Während monatlich mehr als 61.000 mal nach „Britney Spears“ und immerhin noch mehr als 1.000 mal nach „Angela Merkel“ gesucht wird, gibt es lediglich 47 Anfragen nach „Varianzanalyse“, 15 nach „Korrespondenzanalyse“ und 84 nach „Regressionsanalyse“. Über die Bedeutung dieses Ungleichgewichts könnte man jetzt sicher viel spekulieren – sicher wäre es schön, die Suchmuster würden sich eines Tages umkehren, andererseits ist die Statistik eben immer noch ein Spezialthema.... Wäre dies nicht so, hätten Statistik-Consultants wie ich auch wenig zu tun....

Viel interessanter ist allerdings dieses Ergebnis:

(Für eine Großbildansicht bitte einfach auf die Grafik klicken)

Im Schnitt kombinieren also 6 Informationssucher im Monat die „Varianzanalyse“ mit „SPSS“ - während doppelt so viele Suchanfragen auf die Kombination von „Varianzanalyse“ und „SPASS“ formuliert werden.

Dies könnte man für einen seltsamen Zufall halten, wäre da nicht:



Man beachte die vierte Suchanfrage von oben - "lineare Regressionsanalyse" und "SPASS". Eine angesichts dieses Ergebnisses spontan durchgeführte (und daher kaum repräsentative) Überprüfung von zwei Dutzend Keywords aus der Marktforschung ergab, dass in den meisten Fällen wesentlich mehr Statistik-Interessierte nach „SPASS“ anstelle von „SPSS“ suchen.

Stellt sich nur noch die Frage, wer das erste SPASS-Analyseprogramm auf dem Markt anbietet und damit all die potenziellen Käufer abgreift.... Bis dahin hoffe ich einige dieser Suchenden mit diesem Blog-Artikel einzufangen, daher sei mir ein wenig Eigenwerbung erlaubt: Wenn Sie nach Regressionsanalyse, Varianzanalyse oder Faktorenanalyse mit SPASS suchen, dann sind Sie bei der Statistikberatung Reinboth an der richtigen Adresse...