Freitag, 31. August 2007

Es muss nicht immer SPSS sein

Obwohl ich selbst während meiner Studienzeit viele Jahre lang mit SPSS gearbeitet habe und die enormen Möglichkeiten dieses Softwarepakets durchaus zu schätzen weiss, existieren meines Erachtens nach für die meisten Aufgaben im Bereich der statistischen Datenanalyse deutlich preisgünstigere Alternativen, mit denen sich die Berechnungen ebenso gut durchführen lassen. Für meine freiberuflichen Consulting-Tätigkeiten habe ich beispielsweise eine kommerzielle Lizenz des Softwarepakets NSDstat Pro erworben, welches vom Norwegischen Statistikamt entwickelt wurde und derzeit in Deutschland durch die bekannte GESIS - die Gesellschaft sozialwissenschaftlicher Infrastruktureinrichtungen – mit ihrem Zentrum für Analysen und Methoden (ZUMA) vertrieben wird. Die Software ist für den kommerziellen Einsatz für gerade einmal 150 EUR zu bekommen, Hochschulen und andere wissenschaftliche Einrichtungen zahlen 120 EUR, Studenten sogar nur 40 EUR für eine voll funktionsfähige Version.

NSDStat beherrscht alle statistischen Grundfunktionen aus der deskriptiven und explorativen Datenanalyse (also beispielsweise die Berechnung von Lage-, Streu- und Verteilungsmaßen, Kreuztabellen, Balken- und Kreisdiagramme), die wesentlichen statistischen Testverfahren (unter anderem Chi²-Test, t-Test und Scheffé-Test) sowie die wichtigsten Korrelationskoeffizienten (Bravais-Pearson, Spearman, Kendall). Highlight ist die Durchführbarkeit einer multivariaten Regressionsanalyse inklusive aller zugehörigen Testverfahren und grafischen Darstellungen – kein Unterschied zu SPSS.

Natürlich kann NSDstat nicht alles, so lassen sich beispielsweise keine Cluster- und Korrespondenzanalysen durchführen – die braucht man in der Praxis aber auch deutlich seltener und in der Basisversion von SPSS sind solche Verfahren ebenfalls nicht enthalten, hierfür müssen teure Zusatzmodule nachgekauft werden. Für 150 EUR erhält man also eine Software, die 80% des Leistungsspektrums der SPSS Base-Version abdeckt und mit der man zudem noch hevorragend Regressionsanalysen durchführen kann. Klar, als alteingesessener SPSS-Nutzer muss man sich an die Optik und die Benutzerführung erst einmal gewöhnen, aber wenn man dann einmal den Bogen raus hat, gehen die Analysen flott von der Hand.

Ein besonderes Highlight der Software ist die Möglichkeit, Datensätze anhand von mitgelieferten Karten auch geographisch auszuwerten, sich also beispielsweise die Verteilung einer bundesweit gezogenen Stichprobe auf einer Deutschlandkarte anzeigen zu lassen. Durch diese Option, die mir aus anderen Datenanalyse-Programmen noch nicht bekannt war, lassen sich schnell übersichtliche und aussagefähige Kartensätze erstellen. Die untenstehende Grafik zeigt wie eine solche Verteilung (hier: Mittelwerte einer näherungsweise metrisch verteilten Likert-Skala zum Thema „Wichtigkeit von Familien“ geographisch abgetragen) dann aussehen kann.





Fazit: Es muss nicht immer SPSS sein – auch wenn die Software natürlich nach wie vor das Non Plus Ultra der statistischen Analysesoftware darstellt. Neben dem hier beschriebenen NSDstat sind übrigens auch vollkommen kostenlose Alternativen einen zweiten Blick wert, beispielsweise CSPro, welches vom US Census Bureau entwickelt wird, oder aber WinIDAMS, herausgegeben durch die UNESCO. Zu guter Letzte ist die von der Freien Universität Berlin entwickelte Software mit dem schönen Namen "Statistiklabor" ist auf jeden Fall ebenfalls einen zweiten Blick wert, auch wenn die Bedienung des Programms sehr ungewöhnlich ist und den meisten vermutlich zunächst Schwierigkeiten bereiten dürfte (mir ging es jedenfalls so).

Donnerstag, 30. August 2007

Interessante statistische Untersuchung zum idealen Altersunterschied von Paaren

Der ORF berichtet in der aktuellen Ausgabe von "ORF ON Science" über eine interessante Studie der Biologen Martin Fieder und Susanne Huber von der Uni Wien, erschienen in den "Biology Letters". Forschungsfrage: Gibt es einen "idealen" Altersunterschied bei menschlichen Partnerschaften bzw. lässt sich das Vorhandensein eines solchen statistisch nachweisen? Als Datenbasis dienten Informationen über die Kinderfülle schwedischer Paare (n ~ 10.000).

Den "Erfolg" einer Partnerschaft machten die Autoren ausschließlich an der Kinderzahl fest (daher auch der Studientitel "Parental age difference and offspring count in humans") - eine aus Sicht des evolutionär vorbelasteten Biologen sicher sinnvolle Entscheidung - in der Natur zählt am Ende schließlich nur, wer seine Gene zu Lebzeiten am weitesten verbreiten konnte...

Aus Sicht des Marktforschers scheint ein Kriterium dagegen recht wenig zu sein, schließlich ließe sich der "Erfolg" einer Partnerschaft auch an anderen Indikatoren wie beispielsweise der Scheidungsrate, der Vorfälle häuslicher Gewalt oder dem subjektiv empfundenen Lebensglück der Befragten festmachen - je länger man darüber nachdenkt, desto mehr "weiche" Kriterien kommen einem in den Sinn - die aber vermutlich in einer biologischen Studie nichts zu suchen hätten.

Hinsichtlich des Altersunterschiedes kommen die Autoren übrigens zu folgendem Ergebnis: Frauen sollten nach einem ungefähr sechs Jahre älteren Partner Ausschau halten, Männer kommen am besten weg, wenn die Partnerin etwa vier Jahre jünger ist. Dieses auf den ersten Blick etwas kuriose Ergebnis - schließlich würde es keine Partnerschaften mehr geben, wenn die Frauen zukünftig auf sechs und die Männer auf vier Jahren Unterschied bestehen würden - erklären die Autoren mit den in der Realität meist eingeschränkten Optionen bei der Partnersuche: "Am Arbeitsplatz oder während der Ausbildung oder wo auch immer man seinen Partner bzw. seine Partnerin trifft, läge eben eine bestimmte Altersverteilung vor, wodurch sich unterschiedliche Werte für Männer und Frauen ergeben." (Quelle: ORF ON Science)

Also doch keine "idealen Werte", sondern eher Ergebnis unserer Lebens- und Arbeitskultur? Die Frage dürfte für Spekulationen wohl weiterhin offen sein. Ich jedenfalls darf mich freuen, dass meine Verlobte fast exakt vier Jahre vor mir geboren wurde - und hoffen, dass ihr die Studie nie selbst in die Hände fällt...

Mittwoch, 29. August 2007

Verlinkung mit dem Marktforschungs-Wiki

Dem einen oder anderen Leser dieses Weblogs wird sicher schon aufgefallen sein, dass viele der hier verwendeten Fachwörter mit Links hinterlegt sind – beispielsweise Normalverteilung, t-Test oder Varianzanalyse. Die Links verweisen alle auf das Marktforschungs-Wiki, welches ich vor etwa einem halben Jahr mit dem Ziel gegründet habe, ein zuverlässiges Online-Nachschlagewerk für statistische Fachbegriffe aufzubauen. Seit Gründung sind dort insgesamt etwas über 80 Definitionen und Fachartikel eingestellt worden, bis Jahresende möchte ich versuchen, diese Zahl auf 100 bis 120 Eintragungen anwachsen zu lassen. Mitstreiter sind mir dabei übrigens herzlich willkommen – wer dies möchte, kann sich im Marktforschungs-Wiki in weniger als 5 Minuten einen Account anlegen und mit der Verbesserung vorhandener oder der Erstellung neuer Einträge beginnen.

Statistische Lagemaße mit Vorsicht verwenden

Die statistischen Lagemaße vermitteln einen Eindruck von der Höhe, sowie zum Teil von der Verteilung der Variablenwerte. Für die einfache Datenanalyse sind das arithmetische Mittel, der Median sowie der Modus von Bedeutung. Neben diesen drei existieren noch andere Mittel wie das geometrische und das harmonische Mittel, bzw. abweichende Berechnungsformen wie das getrimmte arithmetische Mittel – diese sind aber nur für Spezialfälle (Berechnung durchschnittlicher Wachstumsraten, Berechnung des arithmetischen Mittels bei Vorliegen extremer Ausreißer usw.) interessant, in der Regel wird man entweder das arithmetische Mittel, den Median oder den Modus verwenden.

Das arithmetische Mittel ist nur für metrisch skalierte Werte sinnvoll (z.B. Temperaturwerte oder finanzielle Größen) . Die Kennzahl liefert eine sehr kompakte Aussage über alle gültigen Werte. Das arithmetische Mittel ist nicht robust gegenüber Ausreißen, sondern kann von diesen massiv verzerrt werden – es lässt sich aber auch ein getrimmtes arithmetisches Mittel berechnet, mit dem diese Verzerrungseffekte umgangen werden können. Sind die Werte nicht metrisch skaliert, sollte man sich hüten, ein arithmetisches Mittel zu berechnen – auch wenn die errechnete Zahl so aussieht, als würde sie scheinbar einen Sinn ergeben! Besondere Vorsicht ist dann geboten, wenn man eine statistische Analysesoftware wie das bekannte SPSS oder meinen momentanen Favoriten NSDstat einsetzt, da solche Programme einem nicht das Denken abnehmen können. Nur der User kann entscheiden, ob die Berechnung des arithmetischen Mittels bei bestimmten Daten angebracht ist oder nicht – meinen Studenten sage ich immer, dass SPSS auch ohne Probleme das arithmetische Mittel aus einer Liste von Telefonnummern oder Bankleitzahlen berechnet, wie sinnlos dies auch sein mag. Da also kein Programm den gesunden Menschenverstand und ein wenig Nachdenken ersetzen kann, liegt es in der Verantwortung des Users, die Voraussetzungen für die Berechnung des arithmetischen Mittels sowie vieler anderer statistischer Kennzahlen zu kennen und zu prüfen, bevor irgendwo ein entsprechender Button angeklickt wird.

Der Median kann schon bei ordinalskalierten Werten sinnvoll berechnet werden. Er ist definiert als derjenige Wert, der genau in der Mitte der geordneten Datenmenge liegt, das Feld der Daten also in zwei 50:50-Bereiche aufteilt. Der Median ist äußerst robust gegenüber Ausreißern und eignet sich daher bei Verteilungen mit größeren Ausreißern deutlich besser als das einfache arithmetische Mittel. Typische ordinalskalierte Werte sind übrigens Schulnoten, auch wenn viele Lehrer dies anders sehen, und für den Durchschnitt nach Klassenarbeiten gnadenlos das arithmetische Mittel berechnen. Wer sein Wissen hinsichtlich der Unterscheidung zwischen den verschiedenen Skalenniveaus nocheinmal auffrischen möchte, für den gibt es bei lernmodule.net eine kurze Unterrichtseinheit zum Thema.

Bleibt am Ende noch der Modus als das einfachste statistische Lagemaß, welches bereits für nominalskalierte Werte sinnvoll gebildet werden kann (beispielsweise Geschlechtsangaben oder aber die bereits erwähnten Telefonnummern und Bankleitzahlen – auch wenn ersteres immer noch nicht allzuviel Sinn machen würde). Der auch als Modalwert bezeichnet Modus ist schlicht und einfach der Wert, welcher in der betrachteten Verteilung am häufigsten vorkommt. Er lässt sich nur sinnvoll interpretieren, wenn die Verteilung ein eindeutiges Maximum besitzt – hier ist also wie bei den anderen Lagemaßen auch Vorsicht auf Seiten des Datenanalytikers geboten.

Dienstag, 28. August 2007

Was finden Sie im Statistikberatung-Weblog?

Bei der Statistikberatung Christian Reinboth handelt es sich um meinen eigenen, ganz privaten (wenn auch nicht unkommerziellen) Versuch, den Marktbedarf für statistisch fundierte Beratungsdienstleistungen auszuloten und zu nutzen. Meiner persönlichen Einschätzung nach existiert heutzutage viel zu viel "schnell schnell"-Marktforschung, bei der Ergebnisse schon nach Tagen oder gar Stunden vorliegen sollen, und bei der aus wirtschaftlichen Gründen schon lange nicht mehr statistisch fundiert gearbeitet wird. Eine schnelle deskriptive Auswertung, ein paar Grafiken, vielleicht noch ein Korrelationskoeffizient obendrauf - und fertig ist die Datenanalyse. Und wer hat nicht schon erlebt, dass Befragungen mit Ausschöpfungsquoten im einstelligen Bereich vergnügt als "repräsentative Erhebungen" verkauft oder munter arithmetische Mittel aus ordinalskalierten Daten gezogen werden, bloss weil wichtige Methodenkenntnisse vor allem auf Seiten der Marktforschungs-Kunden fehlen?

So viel mehr lässt sich mit multivariaten Analyseverfahren wie der Faktorenanalyse, der Clusteranalyse oder der Korrespondenzanalyse erreichen. Tiefere Einsicht in die Daten und wertvolle Erkenntnisse zu Zielgruppen, wirtschaftlichen Zusammenhängen oder politischen Einstellungen lassen sich den meisten Daten entlocken - wenn man Erhebungen sauber durchführt und vor allem wissenschaftlich exakt auswertet. Leider sehen die meisten Marktforscher hier weniger eine Chance als mehr ein Risiko, denn niemand kann garantieren, ob eine Korrespondenzanalyse auch wirklich funktioniert, oder ob sie an irgendeinem Punkt abgebrochen werden muss, weil wesentliche Voraussetzungen einfach nicht erfüllt sind. Dann doch lieber dem Kunden nur Balkendiagramme versprechen - die lassen sich immer erstellen.

Bei meiner Unternehmensgründung vor gut einem Jahr habe ich mir vorgenommen, von dieser Denke Abstand zu halten, und statt Schnellschüssen nur mathematisch fundierte Analysen anzubieten - die dauern vielleicht zwei Tage länger und lassen sich nicht immer zu einem befriedigenden Abschluss bringen, aber wenn man dann doch die "Daten-Diamanten" findet sind viele Kunden auch schnell überzeugt, dass sich der zusätzliche Einsatz lohnt. Diesem Anspruch versuche ich nicht nur in der Statistikberatung, sondern auch in meinen anderen Tätigkeiten als Lehrbeauftragter für Statistik und SPSS der Hochschule Harz und als Mitgründer und Senior Analyst der HarzOptics GmbH - einem An-Institut für photonische F&E - gerecht zu werden - ob mir das auch gelingt, können andere sicher besser beurteilen als ich (meine Studenten haben jedenfalls öfter etwas zu kritisieren - ich kann mich aber erinnern, dass ich dies zu Studentenzeiten auch hatte...)

Dieser wissenschaftliche Anspruch und die daraus folgenden Überlegungen sind auch die Ausgangsbasis für das neue Statistikberatung-Weblog: Hier werde ich regelmäßig Fundstücke aus der Welt der Statistik und Meinungsforschung einstellen, Kritik an unsauber durchgeführten Studien und Befragungen üben, über neue Software und Entwicklungen in der Methodenlehre berichten und vor allem Tips und Tricks zur sauberen Datenanalyse geben - alle Kommentare und Verbesserungsvorschläge sind mir dabei natürlich jederzeit herzlich willkommen!