Weblog der Statistikberatung Reinboth: NSDstat-Kurs: Interpretation eines Histogramms

Im vierten Teil des Blog-Tutorials zur Analysesoftware NSDstat Pro soll nun nach dem Box-Plot auch noch auf die Interpretation des Histogramms eingegangen werden, das ja von NSDstat stets gemeinsam mit dem Box-Plot ausgegeben wird. Als Beispieldatensatz dient wieder einmal die bekannte Jugendlichen-Befragung zum Thema Politik, als Beispielvariable erneut die Variable v8 – Politisches Interesse. Die ersten zwei Schritte – Auswahl der Variablen und Erstellung der univariaten Analyseübersicht – sind somit identisch mit den ersten beiden Schritten der letzten Tutorial-Kapitel.

Wer die Erinnerung an die genaue Vorgehensweise noch einmal etwas auffrischen will, kann dies übrigens hier tun. Wie immer lassen sich übrigens auch in diesem Tutorial-Posting die Grafiken mit einem Mausklick vergrößert darstellen.

Ein Klick auf das Grafik-Icon (das dritte Icon von oben) öffnet in der univariaten Statistik die grafische Übersicht, die bei NSDstat stets aus dem Histogramm mit der eingeblendeten Normalverteilungskurve sowie dem darunterliegenden Box-Plot besteht, dessen Interpretation ja bereits im letzten Teil dieses Tutorials ausführlich beleuchtet wurde.

Ein solches Histogramm stellt die Häufigkeitsverteilung der Werte einer intervallskalierten Variablen dar (diese Voraussetzung sollte erfüllt sein – ist sie es nicht, lässt sich das Histogramm nicht sinnvoll interpretieren). Histogramme eignen sich primär für die Darstellung von stetigen Merkmalen mit einer größeren Anzahl an Ausprägungen. Bei der Konstruktion der Grafik wird von den nach der Größe geordneten Daten ausgegangen, die in eine bestimmte Anzahl von Klassen aufgeteilt werden. Über jeder dieser Klassen wird ein Rechteck konstruiert, dessen Flächeninhalt sich proportional zur absoluten bzw. relativen Häufigkeit der jeweiligen Klasse verhält.

Diese Klassen müssen nicht zwangsweise die gleiche Breite besitzen – es ist aber durchaus von Vorteil wenn es so ist, da nur dann der grafische Vergleich mit der Normalverteilung möglich wird. Aus diesem Grund werden Histogramme in den meisten Statistikprogrammen per Default stets mit gleichbreiten Klassen erzeugt – so beispielsweise in SPSS, wie die untenstehende Grafik verdeutlicht. Auch in NSDStat haben alle Histogramme automatisch gleichbreite Klassen, eine Voreinstellung, die auch durch den User nicht aufgehoben werden kann.

Aber welcher Vorteil ergibt sich durch das Einblenden der besagten Kurve? Nun, viele statistische Verfahren in der Marktforschung setzen voraus, dass bestimmte Variablen in der Grundgesamtheit normalverteilt sind (so beispielsweise die Varianzanalyse). Der Marktforscher muss daher häufig prüfen, ob vom Vorliegen einer solchen Verteilung ausgegangen werden kann, wobei eine näherungsweise Übereinstimmung häufig für die Fortsetzung der Analyse ausreichend ist – eine perfekte Übereinstimmung ist bei Daten aus einer Stichprobe ja ohnehin nicht zu erwarten.

Diese Prüfung auf Normalverteilung kann unter anderem anhand eines Histogramms mit eingeblendeter Normalverteilungskurve erfolgen, wobei aus mathematischer Sicht bessere Optionen existieren (mehr dazu weiter unten). Da die Balken des Histogramms die komplette Breite der Wertebereiche widerspiegeln und zudem für leere Wertebereiche ein Freiraum ausgegeben wird, kommt im Histogramm die gesamte empirische Verteilung der Variablen zum Ausdruck. Dies ermöglicht den direkten Vergleich mit einer eingezeichneten theoretischen Verteilung wie beispielsweise der Normalverteilung.

Je schwächer der Balkenverlauf dem Verlauf der eingeblendeten Normalverteilungskurve folgt, desto eher ist davon auszugehen, dass keine Normalverteilung vorliegt. Nachfolgend dazu noch ein Beispiel mit einer anderen Variablen – v9, in der das Vertrauen, welches die Jugendlichen ganz allgemein in Politiker setzen, auf der bereits von v8 bekannten Skala erfasst wurde.

Auch hier ist – analog zur bisherigen Beispielvariable v8 – zu erkennen, dass die eingeblendete Normalverteilungskurve mit dem Balkenverlauf sehr gut zusammenpasst.

Bei der Interpretation solcher Ergebnisse ist aber stets zu beachten, dass es sich lediglich um eine Prüfung und keinen statistischen Test handelt. Dies bedeutet, dass in die Grafik ausschließlich die vorliegenden Werte aus der Stichprobe einfließen, die ja nicht zwangsweise die Verteilungsverhältnisse in der Grundgesamtheit optimal abbilden, sondern aufgrund von Zufallseffekten auch stark abweichende Verhältnisse aufweisen können. Einen Test auf Vorliegen einer Normalverteilung kann nur anhand eines „echten“ statistischen Tests wie des Kolmogorov-Smirnov-Anpassungstests erfolgen, nicht aber anhand einer grafischen Prüfung – es sei denn, es liegen die Daten einer Vollerhebung vor.

Handelt es sich jedoch um Daten aus einer Stichprobe, was in der Praxis ja meist der Fall sein wird, so stellen die grafischen Prüfungen lediglich einen Indikator dafür da, inwiefern ein Test überhaupt sinnvoll erscheint – allerdings einen guten, weshalb man sie vor der Durchführung eines aufwändigen Testverfahrens unbedingt einmal ansehen sollte.

In den nächsten Teilen dieses Tutorials lösen wir uns von der univariaten Datenanalyse und wenden uns den bivariaten Statistiken zu, wobei es im nächsten Tutorial erst einmal um die Erstellung von einfachen Kreuztabellen sowie die Durchführung von Chi²-Tests gehen wird.