Dienstag, 22. Januar 2008
Lesetipp: Markenwahl mit Herz und Verstand
Donnerstag, 17. Januar 2008
NSDstat-Kurs: Interpretation eines Box-Plot
Im dritten Teil des Blog-Tutorials zur Analysesoftware NSDstat Pro soll gezeigt werden, wie sich mit NSDstat ein Box-Plot erstellen lässt und wie diese besondere Form der grafischen Darstellung interpretiert werden kann. Als Beispiel wird der bereits aus den ersten beiden Teilen bekannte NSDstat Demo-Datensatz zum politischen Interesse von Schülern verwendet.
Wie am Screenshot zu erkennen ist, wurde auch hier wieder die Variable V8 selektiert, in der das politische Interesse der befragten Schüler auf einer Skala von 1 bis 4 erfasst wurde. Ein Klick auf das Grafik-Icon (das dritte Icon von oben) öffnet nun die grafische Übersicht, die in der Standardeinstellung aus einem Histogramm mit eingeblendeter Normalverteilungskurve sowie dem darunterliegenden Box-Plot besteht, der in NSDstat auch als Box-Whisker-Plot bezeichnet wird.
Um diesen Box-Plot korrekt interpretieren zu können, muss man sich den Aufbau der Grafik vor Augen führen: Die Box als zentrales Element verläuft vom oberen (75%) Quartil zum unteren (25%) Quartil, das mittlere (50%) Quartil, welches auch als Median bekannt ist, ist als Linie in der Box eingezeichnet. Der Median liegt keineswegs immer in der Mitte der Box - auch wenn es in diesem Beispiel-Fall so ist. Seine Lage hängt vielmehr von der Form der Verteilung ab, die somit ebenfalls direkt aus dem Box-Plot abgelesen werden kann (Stichwort: Links- und Rechtssteilheit bzw. Symmetrie). Da die Box zwischen dem oberen und dem unteren Quartil verläuft, entspricht ihre Länge auch genau dem Interquartilsabstand IQR, einem bekannten Streuungsmaß aus der explorativen Datenanalyse.
Außerhalb der Box wird ein Abstand von 1,5 IQR auf die obere und die untere Kante aufgetragen, so dass sich ein Feld mit einer Gesamtlänge von 4 IQR ergibt. Zwei Werte, die noch in diesem Bereich von 4 IQR liegen, bilden die Grenzpunkte für den oberen und den unteren "Zaun" des Box-Plots, die jeweils durch eine Linie mit der Box verbunden werden. Zu beachten ist, dass die Zäune nicht an der Grenze von +/- 1,5 IQR um die beiden Enden der Box liegen, sondern dort, wo sich der größte bzw. der kleinste Wert der Verteilung innerhalb dieser beiden Abstände befindet. Alle Werte die außerhalb der Zäune liegen, werden als Ausreißer gekennzeichnet, wobei angemerkt werden muss, dass keine allgemeingültige Definition dieses Begriffs existiert und die Identifikation der Ausreißer via Boxplot nur eine der möglichen Methoden darstellt.
Abschließend noch eine selbsterstellte Grafik aus dem MaFo-Wiki, in welcher der Aufbau des Box-Plot noch einmal übersichtshalber dargestellt wird:
In der nächsten Ausgabe dieses Tutorials werde ich mich der Interpretation der zweiten Grafik – des Histrogramms mit eingeblendeter Normalverteilungskurve – zuwenden und unter anderem erläutern, warum man sich diese Grafik vor der Durchführung eines Kolmogorov-Smirnov-Anpassungstests unbedingt ansehen sollte.
Dienstag, 15. Januar 2008
Inflationärer Gebrauch des Studienbegriffs
Anlass zur Kritik bietet der aktuelle "Studienkrieg" zwischen Microsoft und der Mozilla Foundation über die Sicherheit ihrer jeweiligen Browser. Da laut des ZDNet-Autors Lothar Lochmaier die Ergebnisse von "so genannter Marktforschung" häufig auf "wundersame Weise" zustandekämen, wird in seinem Artikel die geradezu inflationäre Verwendung des Begriffs "Studie" einmal kritisch betrachtet.
Dabei kommt Lochmaier zu dem Schluss, dass in zwei Arten von Marktforschern unterschieden werden muss: Nämlich in diejenigen, die eine Studie noch als "zitierfähige und abgeschlossene Untersuchung" betrachten, die "zumindest einigen wissenschaftlichen Standards genügen sollte" und diejenigen, "die den deutschen Sprachgebrauch sehr flexibel ausdehnen" und auch Untersuchungen mit geringem Umfang, deren Resultate ohnehin bereits feststehen, als "wissenschaftliche Studie" verkaufen.
Auch wenn Angriffe gegen "die Statistik" (auch das berühmte aber falsche Churchill-Zitat kommt wieder einmal im Artikel vor) immer leicht fallen und wohl das sind, was der Amerikaner als "cheap shot" bezeichnen würde, so muss man Lochmaier in diesem Falle doch zustimmen. Die geradezu inflationäre Verwendung von wissenschaftlich besetzten Begriffen wie "Studie", "Signifikanz" (hierzu gibt es eine weitere fundierte Kritik im Arbeitszimmer) oder "Repräsentativität" ist in der Tat ein Problem, da diese Ausdrücke beim Leser solcher Berichte bzw. beim Marktforschungs-Kunden inhaltliche Assoziationen auslösen, die durch die Methodik der Datenerhebung und -analyse leider viel zu oft nicht gedeckt werden.
"Statistik-Bashing" ist als moderner Sport für Journalisten sicher zu kritisieren - die ständige und missverständliche Verwendung von Begriffen aus der wissenschaftlichen Marktforschung für methodisch unsaubere Untersuchungen ist aber ebenfalls ein Problem - und zwar eins, welches zu mehr und mehr kritischen Artikeln und damit zu ständig weiter erodierendem Vertrauen in alle Ergebnisse statistischer Untersuchungen - auch der methodisch sauberen - führt.