Dienstag, 22. Januar 2008

Lesetipp: Markenwahl mit Herz und Verstand

Der MaFo-Lesetipp des Tages: Tim Zuetphen von TNS Infratest schreibt in der aktuellen Online-Ausgabe der Financial Times Deutschland über das Marktforschungstool Conversion Model, über die Kunst, starke Marken zu identifizieren und über die Frage, wie Konsumenten eigentlich ihre Kaufentscheidungen treffen. Ein höchst lesenswerter Artikel, der jedem Marktforschungs- und Marketing-Interessierten vorbehaltlos empfohlen werden kann.

Donnerstag, 17. Januar 2008

NSDstat-Kurs: Interpretation eines Box-Plot

Im dritten Teil des Blog-Tutorials zur Analysesoftware NSDstat Pro soll gezeigt werden, wie sich mit NSDstat ein Box-Plot erstellen lässt und wie diese besondere Form der grafischen Darstellung interpretiert werden kann. Als Beispiel wird der bereits aus den ersten beiden Teilen bekannte NSDstat Demo-Datensatz zum politischen Interesse von Schülern verwendet.

Der erste Schritt besteht in der Erstellung der univariaten Basis-Statistik, die im zweiten Teil des Tutorials beschrieben wurde. Wer die Erinnerung noch einmal etwas auffrischen will, kann den entsprechenden Text hier nachlesen.

Wie am Screenshot zu erkennen ist, wurde auch hier wieder die Variable V8 selektiert, in der das politische Interesse der befragten Schüler auf einer Skala von 1 bis 4 erfasst wurde. Ein Klick auf das Grafik-Icon (das dritte Icon von oben) öffnet nun die grafische Übersicht, die in der Standardeinstellung aus einem Histogramm mit eingeblendeter Normalverteilungskurve sowie dem darunterliegenden Box-Plot besteht, der in NSDstat auch als Box-Whisker-Plot bezeichnet wird.

Um diesen Box-Plot korrekt interpretieren zu können, muss man sich den Aufbau der Grafik vor Augen führen: Die Box als zentrales Element verläuft vom oberen (75%) Quartil zum unteren (25%) Quartil, das mittlere (50%) Quartil, welches auch als Median bekannt ist, ist als Linie in der Box eingezeichnet. Der Median liegt keineswegs immer in der Mitte der Box - auch wenn es in diesem Beispiel-Fall so ist. Seine Lage hängt vielmehr von der Form der Verteilung ab, die somit ebenfalls direkt aus dem Box-Plot abgelesen werden kann (Stichwort: Links- und Rechtssteilheit bzw. Symmetrie). Da die Box zwischen dem oberen und dem unteren Quartil verläuft, entspricht ihre Länge auch genau dem Interquartilsabstand IQR, einem bekannten Streuungsmaß aus der explorativen Datenanalyse.

Außerhalb der Box wird ein Abstand von 1,5 IQR auf die obere und die untere Kante aufgetragen, so dass sich ein Feld mit einer Gesamtlänge von 4 IQR ergibt. Zwei Werte, die noch in diesem Bereich von 4 IQR liegen, bilden die Grenzpunkte für den oberen und den unteren "Zaun" des Box-Plots, die jeweils durch eine Linie mit der Box verbunden werden. Zu beachten ist, dass die Zäune nicht an der Grenze von +/- 1,5 IQR um die beiden Enden der Box liegen, sondern dort, wo sich der größte bzw. der kleinste Wert der Verteilung innerhalb dieser beiden Abstände befindet. Alle Werte die außerhalb der Zäune liegen, werden als Ausreißer gekennzeichnet, wobei angemerkt werden muss, dass keine allgemeingültige Definition dieses Begriffs existiert und die Identifikation der Ausreißer via Boxplot nur eine der möglichen Methoden darstellt.

Abschließend noch eine selbsterstellte Grafik aus dem MaFo-Wiki, in welcher der Aufbau des Box-Plot noch einmal übersichtshalber dargestellt wird:

In der nächsten Ausgabe dieses Tutorials werde ich mich der Interpretation der zweiten Grafik – des Histrogramms mit eingeblendeter Normalverteilungskurve – zuwenden und unter anderem erläutern, warum man sich diese Grafik vor der Durchführung eines Kolmogorov-Smirnov-Anpassungstests unbedingt ansehen sollte.

Dienstag, 15. Januar 2008

Inflationärer Gebrauch des Studienbegriffs

Die gelegentlich mangelhafte statistische Sauberkeit heutiger Marktforschung habe ich in diesem Blog ja bereits mehrfach kritisiert. Nun ist auch im ZDNet - der wohl bekanntesten deutschsprachigen IT-Webseite neben heise - ein Artikel erschienen, in dem kritisch angemahnt wird, dass seitens der Unternehmen zu vieles als "Marktforschung" verkauft wird, auch wenn es sich im Grunde kaum um mehr als interne Untersuchungen mit entsprechendem Bias handelt.

Anlass zur Kritik bietet der aktuelle "Studienkrieg" zwischen Microsoft und der Mozilla Foundation über die Sicherheit ihrer jeweiligen Browser. Da laut des ZDNet-Autors Lothar Lochmaier die Ergebnisse von "so genannter Marktforschung" häufig auf "wundersame Weise" zustandekämen, wird in seinem Artikel die geradezu inflationäre Verwendung des Begriffs "Studie" einmal kritisch betrachtet.

Dabei kommt Lochmaier zu dem Schluss, dass in zwei Arten von Marktforschern unterschieden werden muss: Nämlich in diejenigen, die eine Studie noch als "zitierfähige und abgeschlossene Untersuchung" betrachten, die "zumindest einigen wissenschaftlichen Standards genügen sollte" und diejenigen, "die den deutschen Sprachgebrauch sehr flexibel ausdehnen" und auch Untersuchungen mit geringem Umfang, deren Resultate ohnehin bereits feststehen, als "wissenschaftliche Studie" verkaufen.

Auch wenn Angriffe gegen "die Statistik" (auch das berühmte aber falsche Churchill-Zitat kommt wieder einmal im Artikel vor) immer leicht fallen und wohl das sind, was der Amerikaner als "cheap shot" bezeichnen würde, so muss man Lochmaier in diesem Falle doch zustimmen. Die geradezu inflationäre Verwendung von wissenschaftlich besetzten Begriffen wie "Studie", "Signifikanz" (hierzu gibt es eine weitere fundierte Kritik im Arbeitszimmer) oder "Repräsentativität" ist in der Tat ein Problem, da diese Ausdrücke beim Leser solcher Berichte bzw. beim Marktforschungs-Kunden inhaltliche Assoziationen auslösen, die durch die Methodik der Datenerhebung und -analyse leider viel zu oft nicht gedeckt werden.

"Statistik-Bashing" ist als moderner Sport für Journalisten sicher zu kritisieren - die ständige und missverständliche Verwendung von Begriffen aus der wissenschaftlichen Marktforschung für methodisch unsaubere Untersuchungen ist aber ebenfalls ein Problem - und zwar eins, welches zu mehr und mehr kritischen Artikeln und damit zu ständig weiter erodierendem Vertrauen in alle Ergebnisse statistischer Untersuchungen - auch der methodisch sauberen - führt.