Montag, 25. Mai 2009

Die Bundesagentur für Arbeit fälscht Statistiken - im Krimi

Einen echten Statistik-Krimi liefert uns Veit Bronnenmeyer:

Ein Toter liegt auf der Stadtgrenzen zwischen Nürnberg und Fürth. Der Streit um die polizeiliche Zuständigkeit stellt anfangs beinahe die Ermittlungen in den Schafften, doch bald wird klar: der Fall ist brisant! Das Opfer ist eine Geschäftsfrau aus der IT-Branche. Ist der Mörder aus einem Konkurrenzunternehmen oder steht der Mord in Zusammenhang mit der Fälschung von Arbeitslosenzahlen?

Wie die Hilpoltsteiner Zeitung berichtet, ist die Geschichte um die frisierten Statistiken der Nürnberger Bundesanstalt für Arbeit und die ermordete Informatikerin, die dem Schwindel auf der Spur gewesen sein soll, weniger schmückendes Beiwerk als vielmehr Teil der Haupthandlung.

Ein echter "Statistik-Krimi" also? Wenn das kein Zeichen dafür wäre, dass die Statistik mehr und mehr im Mainstream ankommt... Wann wohl mit der Verfilmung zu rechnen ist?

Montag, 16. März 2009

Online-Marktforschung steht hoch im Kurs

Online-Marktforschung - ein Erfolgsrezept auch in der Schweiz:

Die via Internet betriebene Markt- und Meinungsforschung erfreut sich auch in der Schweiz wachsender Beliebtheit. Während gleich zweier Jahre in Folge verzeichnete die Online-Marktforschung Zuwachsraten von je 60 Prozent, teilt das in diesem Segment tätige Unternehmen Marketagent.com Schweiz mit.

Weniger erfolgsversprechend sind dagegen Umfragen per Mobiltelefon . Wie schon vor einigen Jahren prophezeit wurde, wird der Wechsel privater Telefonnutzer vom Festnetz-Anschluss zur reinen Mobiltelefon-Nutzung zunehmend zum Problem für CATI:

Mit der Verlagerung der telefonischen Befragung auf mobile Endgeräte könne CATI aber kaum Terrain gutmachen. Die überwältigende Mehrheit der Handy-Benutzer wolle anonym bleiben - der Telefonverzeichnis-Anbieter directories.ch verzeichne gerade einmal eine halbe Millionen registrierter Mobile-Besitzer. Dieses Bevölkerungssegment sei daher nur sehr eingeschränkt für telefonische Befragungen erreichbar.

Prinzipiell befürworte ich ja das beständig steigende Interesse an Online-Erhebungen, welches ich auch in meiner beruflichen Praxis bemerke - die noch vor drei bis vier Jahren sehr deutlich spürbare Zurückhaltung und Skepsis dem neuen Erhebungsmedium gegenüber hat offenbar stark nachgelassen. Ich frage mich allerdings, wie es mit der statistischen Repräsentativität vieler dieser Erhebungen aussieht, denn nicht selten erlebe ich, wie im Web erhobene Daten mit der Begründung als repräsentativ verkauft werden, es "hätten ja so viele mitgemacht". Das dies jedoch grober Unfug ist, weiß man ja bereits seit dem Literary Digest Disaster von 1936...

Ist mehr Online-Marktforschung wünschenswert? Auf jeden Fall, lassen sich doch im Internet recht einfach auch mehrsprachige Fragebögen mit komplexer Filterführung und ansprechender grafischer Gestaltung realisieren. Mit Begriffen wie "repräsentativ" oder "signifikant" sollte man bei im Internet realisierten Stichproben jedoch vorsichtig umgehen - es sei denn, man kann sicher nachweisen, dass eine repräsentative Online-Stichprobenziehung für diese spezielle Grundgesamtheit tatsächlich realisierbar ist.

Freitag, 20. Februar 2009

NSDstat-Kurs: Erstellung von Kreuztabellen

Nach viel zu langer Pause kommen ich heute endlich dazu, mal wieder einen Teil (den mittlerweile fünften) des Blog-Tutorials zur Analysesoftware NSDstat Pro einzustellen. In diesem Teil soll nun nach den Blicken auf die Erstellung von Box-Plot und Histogramm auf die Erstellung einfacher Kreuztabellen eingegangen werden.

Als Beispieldatensatz dient wie in allen Tutorials bisher auch die Jugendlichen-Befragung zum Thema Politik, die sich auf der NSDStat-Installations-CD befindet. Für das Beispiel verwende ich die Variable v8 – das politische Interesse der Jugendlichen in Kombination mit der Variablen v2 – dem Geschlecht. Im ersten Schritt werfen wir einen Blick auf die beiden Variablen in der Variablenauswahl.


Von diesem Bildschirm aus gelangt man mit einem Klick auf das dritte Icon von oben in den bivariaten Analysemodus. Hier sind nun beide Variablen zu selektieren, wobei die Variable v2 als vertikale, die Variable v8 als horizontale Variable selektiert wird. Mit dieser Auswahl wird festgelegt, welche der Variablen in der Kreuztabelle die Daten für die Spalten und welche die Daten für die Zeilen liefert. Darüber hinaus hat die Reihenfolge natürlich keinen Einfluss auf die Ergebnisse von Tests und anderen bivariaten Verfahren.


Da „Kreuztabellen“ im oberen Reiter breits selektiert wurde, genügt nun ein Klick auf den OK-Button, um die gewünschte Kreuztabelle zu erstellen.


Wie man sieht, besteht die Kreuztabelle aus 4 x 2 Zahlenfeldern (Antworten x Geschlechter) vier Spalten- und zwei Zeilensummen sowie der Gesamtzahl der Fälle, die sich jeweils durch Addition aus den Spalten- und Zeilensummen errechen lässt. Die Tabelle zeigt im Wesentlichen die Verteilung einer Variable über die andere, d.h. sie ermöglicht die leichte Beantwortung einer Frage wie „Wie viele der befragten Jungen haben angegeben, sich stark für Politik zu interessieren?“ (573) oder „Sind in der Gruppe derjenigen Jugendlichen, die sich gar nicht für Politik interessieren, mehr Jungen oder mehr Mädchen?“ (mehr Jungen).

Ein Rechtsklick auf die Kreuztabelle öffnet das Optionsmenü, in dem man unter anderem von der standardmäßigen Darstellung der absoluten Häufigkeiten auf eine Darstellung mit relativen Häufigkeiten umschalten kann.


Darüber hinaus lässt sich mit einem Klick auf das Grafik-Symbol ein sogenanntes „bedingtes Balkendiagramm“ erstellen.


Zu guter letzt wollen wir uns noch kurz ansehen, was für eine Kreuztabelle NSDStat liefert, wenn in der Variablenauswahl die Variable v8 als vertikale und die Variable v2 als horizontale Variable selektiert wird.


Wie man sieht, vertauschen sich lediglich Zeilen und Spalten, während die Werte und auch die Summen gleich bleiben (wobei in der neuen Kreuztabelle natürlich Zeilen- und Spaltensummen ebenfalls vertauscht sind). Möchte man beispielsweise für einen Bericht eine Kreuztabelle aus zwei Variablen mit einer deutlich unterschiedlichen Zahl an möglichen (diskreten) Antwortoptionen erstellen, lohnt es sich also darüber nachzudenken, ob man lieber eine breite oder eine lange Tabelle einbinden möchte...

In den nächsten Teilen dieses Tutorials möchte ich die bivariaten Statistiken weiter vertiefen und mich vielleicht mit der Durchführung von Chi²-Tests beschäftigen – soweit es nicht alternative Wünsche geben sollte...

Dienstag, 10. Februar 2009

Fragenbias bei CBN

Passend zum letzten Blogpost heute noch einmal ein schönes Beispiel für einen Fragenbias:


„Considering the recent rise in fuel prices, do you think it is a good idea to use the Alaskan Wildlife Reserve for oil exploration?“

Eine mögliche Alternativfrage wäre gewesen:

„Considering the difficulties in preserving endangered species in Alaska, do you think it is a good idea to use the Alaskan Wildlife Reserve for oil exploration?“

Müsste man bei dieser Alternativfrage mit einer anderen Verteilung der Antworten rechnen? Auf jeden Fall. Aus welchen Gründen entscheidet man sich für die eine oder die andere Version? Um auf subtile Art und Weise das Ergebnis zu beeinflussen? Oder aus der Unkenntnis heraus, dass diese einfache und kurze Version doch die beste gewesen wäre?

„Do you think it is a good idea to use the Alaskan Wildlife Reserve for oil exploration?“

Donnerstag, 5. Februar 2009

Gutes Fragendesign: Nie zu allgemein formulieren

Zu den häufigsten Aufträgen, die in letzter Zeit bei mir eintrudeln, gehört die Programmierung von Fragebögen für Online-Befragungen. Der Fragebogen selbst ist in den meisten Fällen schon fertiggestellt, und soll nur noch ansprechend für das Internet umgesetzt werden.

Immer wieder ertappe ich mich dann dabei, wie ich die Fragen während der Programmierung noch einmal umformuliere – und dann am Ende den Kunden anrufe und ihn darum bitte, die Fragen nochmal mit ihm durchgehen zu können, um irreführende Formulierungen zu entfernen. In der Regel hängen die Kunden am Anfang oft ein wenig an ihren Formulierungen, lassen sich dann aber meistens dazu überreden, doch noch das eine oder andere Wort zu ändern.

Einer der typischen Fehler in Fragebögen sind viel zu allgemeine Formulierungen wie zum Beispiel „Was halten Sie vom Umweltschutz?“ oder „Wie stehen Sie zum Thema Politik?“.

Wenn man sich einmal die Frage „Was halten Sie vom Umweltschutz?“ ansieht, wird schnell klar, dass die Frage so allgemein formuliert ist, dass jeder Proband sich den Bezugsrahmen selbst wählen kann.
Vorstellbar wäre beispielsweise, dass Proband A die Frage auf den Bezugsrahmen „Umweltschutz in der Politik“ bezieht, während Proband B eher an „Umweltschutz in der eigenen Familie“ denkt.

Unterschiedliche Probanden werden daher bei einer so gestellten Frage jeweils vor einem anderen Hintergrund antworten. Damit macht man natürlich automatisch einen Fehler, wenn man die Antworten nach Ende der Befragung gemeinsam auswertet – denn da die Probanden den Bezugsrahmen zur Beantwortung der Frage selbst wählen konnten, haben sie im Grunde auf unterschiedliche Fragen geantwortet. Weil man den Bezugsrahmen in der Regel nicht kennt (da er nicht abgefragt wird), sind die gewonnenen Daten mehr oder weniger wertlos.


Allgemeine Fragestellungen wie „Was halten Sie vom Umweltschutz?“ sind daher nur für solche Befragungen geeignet, deren Ziel es ist, etwas über die Mechanismen hinter der Wahl des Bezugsrahmens bei Probanden unterschiedlicher demographischer Gruppen zu erfahren, wobei die allgemeine Eingangsfrage dann durch weitere Fragen zum Bezugsrahmen ergänzt werden muss.

Für alle „normalen“ Befragungen aber gilt, dass jede Frage immer so gestellt werden sollte, dass Probanden wenig Interpretationsspielraum haben. Denn nur wenn eindeutig formuliert wird, kann man wissen, auf welche Frage wirklich geantwortet wurde...

Donnerstag, 22. Januar 2009

Neues Lernmodul: Box-Plots erstellen und interpretieren

Auf www.lernmodule.net, einer Plattform für interaktive Lernmodule und Gewinner des Europäischen E-Learning-Awards 2007, ist seit heute ein von mir entwickeltes Statistik-Lernmodul zur Erstellung und Interpretation von Box-Plots zu finden.

Das Modul vermittelt nicht nur einen Eindruck davon, wie man Box-Plots zeichnet bzw. wie man sie korrekt liest, es wird auch aufgezeigt, welche anderen Formen der grafischen Darstellung in der Statistik üblicherweise verwendet werden - und aus welchen Gründen der Box-Plot als eine besonders informationsreiche Form der grafischen Darstellung statistischer Daten bezeichnet werden kann. Alles in allem sind alle meines Erachtens nach wichtigen Basics enthalten, wobei mir Verbesserungsvorschläge und / oder Änderungswünsche natürlich jederzeit willkommen sind.


Direkt verlinken kann man das Modul leider nicht, wer es sich aber ansehen möchte kann es im Modul-Menü unter dem Fachgebiet "Mathematik" und dem Lernlevel "Hochschule" finden. Dort findet sich übrigens auch noch ein zweites von mir erstelltes Lernmodul zum Thema "statistische Lagemaße", das allerdings schon fast drei Jahre alt ist. Zwar hatte ich mir immer wieder vorgenommen, mindestens alle paar Monate ein neues Lernmodul abzuliefern, um damit das Projekt zu unterstützen, aber aufgrund meiner beruflichen Auslastung ist leider nichts daraus geworden. Vielleicht finde ich ja 2009 endlich die Zeit dazu, weitere Lernmodule zu Themen aus der Statistik zu erstellen.

Vorschläge und Anregungen zu neuen Themen werden jederzeit gerne entgegen genommen.