Montag, 25. Mai 2009

Die Bundesagentur für Arbeit fälscht Statistiken - im Krimi

Einen echten Statistik-Krimi liefert uns Veit Bronnenmeyer:

Ein Toter liegt auf der Stadtgrenzen zwischen Nürnberg und Fürth. Der Streit um die polizeiliche Zuständigkeit stellt anfangs beinahe die Ermittlungen in den Schafften, doch bald wird klar: der Fall ist brisant! Das Opfer ist eine Geschäftsfrau aus der IT-Branche. Ist der Mörder aus einem Konkurrenzunternehmen oder steht der Mord in Zusammenhang mit der Fälschung von Arbeitslosenzahlen?

Wie die Hilpoltsteiner Zeitung berichtet, ist die Geschichte um die frisierten Statistiken der Nürnberger Bundesanstalt für Arbeit und die ermordete Informatikerin, die dem Schwindel auf der Spur gewesen sein soll, weniger schmückendes Beiwerk als vielmehr Teil der Haupthandlung.

Ein echter "Statistik-Krimi" also? Wenn das kein Zeichen dafür wäre, dass die Statistik mehr und mehr im Mainstream ankommt... Wann wohl mit der Verfilmung zu rechnen ist?

Montag, 16. März 2009

Online-Marktforschung steht hoch im Kurs

Online-Marktforschung - ein Erfolgsrezept auch in der Schweiz:

Die via Internet betriebene Markt- und Meinungsforschung erfreut sich auch in der Schweiz wachsender Beliebtheit. Während gleich zweier Jahre in Folge verzeichnete die Online-Marktforschung Zuwachsraten von je 60 Prozent, teilt das in diesem Segment tätige Unternehmen Marketagent.com Schweiz mit.

Weniger erfolgsversprechend sind dagegen Umfragen per Mobiltelefon . Wie schon vor einigen Jahren prophezeit wurde, wird der Wechsel privater Telefonnutzer vom Festnetz-Anschluss zur reinen Mobiltelefon-Nutzung zunehmend zum Problem für CATI:

Mit der Verlagerung der telefonischen Befragung auf mobile Endgeräte könne CATI aber kaum Terrain gutmachen. Die überwältigende Mehrheit der Handy-Benutzer wolle anonym bleiben - der Telefonverzeichnis-Anbieter directories.ch verzeichne gerade einmal eine halbe Millionen registrierter Mobile-Besitzer. Dieses Bevölkerungssegment sei daher nur sehr eingeschränkt für telefonische Befragungen erreichbar.

Prinzipiell befürworte ich ja das beständig steigende Interesse an Online-Erhebungen, welches ich auch in meiner beruflichen Praxis bemerke - die noch vor drei bis vier Jahren sehr deutlich spürbare Zurückhaltung und Skepsis dem neuen Erhebungsmedium gegenüber hat offenbar stark nachgelassen. Ich frage mich allerdings, wie es mit der statistischen Repräsentativität vieler dieser Erhebungen aussieht, denn nicht selten erlebe ich, wie im Web erhobene Daten mit der Begründung als repräsentativ verkauft werden, es "hätten ja so viele mitgemacht". Das dies jedoch grober Unfug ist, weiß man ja bereits seit dem Literary Digest Disaster von 1936...

Ist mehr Online-Marktforschung wünschenswert? Auf jeden Fall, lassen sich doch im Internet recht einfach auch mehrsprachige Fragebögen mit komplexer Filterführung und ansprechender grafischer Gestaltung realisieren. Mit Begriffen wie "repräsentativ" oder "signifikant" sollte man bei im Internet realisierten Stichproben jedoch vorsichtig umgehen - es sei denn, man kann sicher nachweisen, dass eine repräsentative Online-Stichprobenziehung für diese spezielle Grundgesamtheit tatsächlich realisierbar ist.

Freitag, 20. Februar 2009

NSDstat-Kurs: Erstellung von Kreuztabellen

Nach viel zu langer Pause kommen ich heute endlich dazu, mal wieder einen Teil (den mittlerweile fünften) des Blog-Tutorials zur Analysesoftware NSDstat Pro einzustellen. In diesem Teil soll nun nach den Blicken auf die Erstellung von Box-Plot und Histogramm auf die Erstellung einfacher Kreuztabellen eingegangen werden.

Als Beispieldatensatz dient wie in allen Tutorials bisher auch die Jugendlichen-Befragung zum Thema Politik, die sich auf der NSDStat-Installations-CD befindet. Für das Beispiel verwende ich die Variable v8 – das politische Interesse der Jugendlichen in Kombination mit der Variablen v2 – dem Geschlecht. Im ersten Schritt werfen wir einen Blick auf die beiden Variablen in der Variablenauswahl.


Von diesem Bildschirm aus gelangt man mit einem Klick auf das dritte Icon von oben in den bivariaten Analysemodus. Hier sind nun beide Variablen zu selektieren, wobei die Variable v2 als vertikale, die Variable v8 als horizontale Variable selektiert wird. Mit dieser Auswahl wird festgelegt, welche der Variablen in der Kreuztabelle die Daten für die Spalten und welche die Daten für die Zeilen liefert. Darüber hinaus hat die Reihenfolge natürlich keinen Einfluss auf die Ergebnisse von Tests und anderen bivariaten Verfahren.


Da „Kreuztabellen“ im oberen Reiter breits selektiert wurde, genügt nun ein Klick auf den OK-Button, um die gewünschte Kreuztabelle zu erstellen.


Wie man sieht, besteht die Kreuztabelle aus 4 x 2 Zahlenfeldern (Antworten x Geschlechter) vier Spalten- und zwei Zeilensummen sowie der Gesamtzahl der Fälle, die sich jeweils durch Addition aus den Spalten- und Zeilensummen errechen lässt. Die Tabelle zeigt im Wesentlichen die Verteilung einer Variable über die andere, d.h. sie ermöglicht die leichte Beantwortung einer Frage wie „Wie viele der befragten Jungen haben angegeben, sich stark für Politik zu interessieren?“ (573) oder „Sind in der Gruppe derjenigen Jugendlichen, die sich gar nicht für Politik interessieren, mehr Jungen oder mehr Mädchen?“ (mehr Jungen).

Ein Rechtsklick auf die Kreuztabelle öffnet das Optionsmenü, in dem man unter anderem von der standardmäßigen Darstellung der absoluten Häufigkeiten auf eine Darstellung mit relativen Häufigkeiten umschalten kann.


Darüber hinaus lässt sich mit einem Klick auf das Grafik-Symbol ein sogenanntes „bedingtes Balkendiagramm“ erstellen.


Zu guter letzt wollen wir uns noch kurz ansehen, was für eine Kreuztabelle NSDStat liefert, wenn in der Variablenauswahl die Variable v8 als vertikale und die Variable v2 als horizontale Variable selektiert wird.


Wie man sieht, vertauschen sich lediglich Zeilen und Spalten, während die Werte und auch die Summen gleich bleiben (wobei in der neuen Kreuztabelle natürlich Zeilen- und Spaltensummen ebenfalls vertauscht sind). Möchte man beispielsweise für einen Bericht eine Kreuztabelle aus zwei Variablen mit einer deutlich unterschiedlichen Zahl an möglichen (diskreten) Antwortoptionen erstellen, lohnt es sich also darüber nachzudenken, ob man lieber eine breite oder eine lange Tabelle einbinden möchte...

In den nächsten Teilen dieses Tutorials möchte ich die bivariaten Statistiken weiter vertiefen und mich vielleicht mit der Durchführung von Chi²-Tests beschäftigen – soweit es nicht alternative Wünsche geben sollte...

Dienstag, 10. Februar 2009

Fragenbias bei CBN

Passend zum letzten Blogpost heute noch einmal ein schönes Beispiel für einen Fragenbias:


„Considering the recent rise in fuel prices, do you think it is a good idea to use the Alaskan Wildlife Reserve for oil exploration?“

Eine mögliche Alternativfrage wäre gewesen:

„Considering the difficulties in preserving endangered species in Alaska, do you think it is a good idea to use the Alaskan Wildlife Reserve for oil exploration?“

Müsste man bei dieser Alternativfrage mit einer anderen Verteilung der Antworten rechnen? Auf jeden Fall. Aus welchen Gründen entscheidet man sich für die eine oder die andere Version? Um auf subtile Art und Weise das Ergebnis zu beeinflussen? Oder aus der Unkenntnis heraus, dass diese einfache und kurze Version doch die beste gewesen wäre?

„Do you think it is a good idea to use the Alaskan Wildlife Reserve for oil exploration?“