Weblog der Statistikberatung Reinboth: NSDstat-Kurs: Interpretation eines Box-Plot

Im dritten Teil des Blog-Tutorials zur Analysesoftware NSDstat Pro soll gezeigt werden, wie sich mit NSDstat ein Box-Plot erstellen lässt und wie diese besondere Form der grafischen Darstellung interpretiert werden kann. Als Beispiel wird der bereits aus den ersten beiden Teilen bekannte NSDstat Demo-Datensatz zum politischen Interesse von Schülern verwendet.

Der erste Schritt besteht in der Erstellung der univariaten Basis-Statistik, die im zweiten Teil des Tutorials beschrieben wurde. Wer die Erinnerung noch einmal etwas auffrischen will, kann den entsprechenden Text hier nachlesen.

Wie am Screenshot zu erkennen ist, wurde auch hier wieder die Variable V8 selektiert, in der das politische Interesse der befragten Schüler auf einer Skala von 1 bis 4 erfasst wurde. Ein Klick auf das Grafik-Icon (das dritte Icon von oben) öffnet nun die grafische Übersicht, die in der Standardeinstellung aus einem Histogramm mit eingeblendeter Normalverteilungskurve sowie dem darunterliegenden Box-Plot besteht, der in NSDstat auch als Box-Whisker-Plot bezeichnet wird.

Um diesen Box-Plot korrekt interpretieren zu können, muss man sich den Aufbau der Grafik vor Augen führen: Die Box als zentrales Element verläuft vom oberen (75%) Quartil zum unteren (25%) Quartil, das mittlere (50%) Quartil, welches auch als Median bekannt ist, ist als Linie in der Box eingezeichnet. Der Median liegt keineswegs immer in der Mitte der Box - auch wenn es in diesem Beispiel-Fall so ist. Seine Lage hängt vielmehr von der Form der Verteilung ab, die somit ebenfalls direkt aus dem Box-Plot abgelesen werden kann (Stichwort: Links- und Rechtssteilheit bzw. Symmetrie). Da die Box zwischen dem oberen und dem unteren Quartil verläuft, entspricht ihre Länge auch genau dem Interquartilsabstand IQR, einem bekannten Streuungsmaß aus der explorativen Datenanalyse.

Außerhalb der Box wird ein Abstand von 1,5 IQR auf die obere und die untere Kante aufgetragen, so dass sich ein Feld mit einer Gesamtlänge von 4 IQR ergibt. Zwei Werte, die noch in diesem Bereich von 4 IQR liegen, bilden die Grenzpunkte für den oberen und den unteren "Zaun" des Box-Plots, die jeweils durch eine Linie mit der Box verbunden werden. Zu beachten ist, dass die Zäune nicht an der Grenze von +/- 1,5 IQR um die beiden Enden der Box liegen, sondern dort, wo sich der größte bzw. der kleinste Wert der Verteilung innerhalb dieser beiden Abstände befindet. Alle Werte die außerhalb der Zäune liegen, werden als Ausreißer gekennzeichnet, wobei angemerkt werden muss, dass keine allgemeingültige Definition dieses Begriffs existiert und die Identifikation der Ausreißer via Boxplot nur eine der möglichen Methoden darstellt.

Abschließend noch eine selbsterstellte Grafik aus dem MaFo-Wiki, in welcher der Aufbau des Box-Plot noch einmal übersichtshalber dargestellt wird:

In der nächsten Ausgabe dieses Tutorials werde ich mich der Interpretation der zweiten Grafik – des Histrogramms mit eingeblendeter Normalverteilungskurve – zuwenden und unter anderem erläutern, warum man sich diese Grafik vor der Durchführung eines Kolmogorov-Smirnov-Anpassungstests unbedingt ansehen sollte.