Mittwoch, 29. August 2007

Statistische Lagemaße mit Vorsicht verwenden

Die statistischen Lagemaße vermitteln einen Eindruck von der Höhe, sowie zum Teil von der Verteilung der Variablenwerte. Für die einfache Datenanalyse sind das arithmetische Mittel, der Median sowie der Modus von Bedeutung. Neben diesen drei existieren noch andere Mittel wie das geometrische und das harmonische Mittel, bzw. abweichende Berechnungsformen wie das getrimmte arithmetische Mittel – diese sind aber nur für Spezialfälle (Berechnung durchschnittlicher Wachstumsraten, Berechnung des arithmetischen Mittels bei Vorliegen extremer Ausreißer usw.) interessant, in der Regel wird man entweder das arithmetische Mittel, den Median oder den Modus verwenden.

Das arithmetische Mittel ist nur für metrisch skalierte Werte sinnvoll (z.B. Temperaturwerte oder finanzielle Größen) . Die Kennzahl liefert eine sehr kompakte Aussage über alle gültigen Werte. Das arithmetische Mittel ist nicht robust gegenüber Ausreißen, sondern kann von diesen massiv verzerrt werden – es lässt sich aber auch ein getrimmtes arithmetisches Mittel berechnet, mit dem diese Verzerrungseffekte umgangen werden können. Sind die Werte nicht metrisch skaliert, sollte man sich hüten, ein arithmetisches Mittel zu berechnen – auch wenn die errechnete Zahl so aussieht, als würde sie scheinbar einen Sinn ergeben! Besondere Vorsicht ist dann geboten, wenn man eine statistische Analysesoftware wie das bekannte SPSS oder meinen momentanen Favoriten NSDstat einsetzt, da solche Programme einem nicht das Denken abnehmen können. Nur der User kann entscheiden, ob die Berechnung des arithmetischen Mittels bei bestimmten Daten angebracht ist oder nicht – meinen Studenten sage ich immer, dass SPSS auch ohne Probleme das arithmetische Mittel aus einer Liste von Telefonnummern oder Bankleitzahlen berechnet, wie sinnlos dies auch sein mag. Da also kein Programm den gesunden Menschenverstand und ein wenig Nachdenken ersetzen kann, liegt es in der Verantwortung des Users, die Voraussetzungen für die Berechnung des arithmetischen Mittels sowie vieler anderer statistischer Kennzahlen zu kennen und zu prüfen, bevor irgendwo ein entsprechender Button angeklickt wird.

Der Median kann schon bei ordinalskalierten Werten sinnvoll berechnet werden. Er ist definiert als derjenige Wert, der genau in der Mitte der geordneten Datenmenge liegt, das Feld der Daten also in zwei 50:50-Bereiche aufteilt. Der Median ist äußerst robust gegenüber Ausreißern und eignet sich daher bei Verteilungen mit größeren Ausreißern deutlich besser als das einfache arithmetische Mittel. Typische ordinalskalierte Werte sind übrigens Schulnoten, auch wenn viele Lehrer dies anders sehen, und für den Durchschnitt nach Klassenarbeiten gnadenlos das arithmetische Mittel berechnen. Wer sein Wissen hinsichtlich der Unterscheidung zwischen den verschiedenen Skalenniveaus nocheinmal auffrischen möchte, für den gibt es bei lernmodule.net eine kurze Unterrichtseinheit zum Thema.

Bleibt am Ende noch der Modus als das einfachste statistische Lagemaß, welches bereits für nominalskalierte Werte sinnvoll gebildet werden kann (beispielsweise Geschlechtsangaben oder aber die bereits erwähnten Telefonnummern und Bankleitzahlen – auch wenn ersteres immer noch nicht allzuviel Sinn machen würde). Der auch als Modalwert bezeichnet Modus ist schlicht und einfach der Wert, welcher in der betrachteten Verteilung am häufigsten vorkommt. Er lässt sich nur sinnvoll interpretieren, wenn die Verteilung ein eindeutiges Maximum besitzt – hier ist also wie bei den anderen Lagemaßen auch Vorsicht auf Seiten des Datenanalytikers geboten.

Keine Kommentare: