Weblog der Statistikberatung Reinboth: SampleSizer: Kostenloses Tool zur Bestimmung des optimalen Stichprobenumfangs

Eine der meist gestellten Fragen bei der Erhebungsplanung ist die nach der optimalen Stichprobengröße. Die wohl häufigste Antwort auf diese Frage lautet: „Je größer desto besser“. Dass dies nicht die beste Antwort ist, bewies bekanntermaßen bereits George Gallup (Gründer der heute sehr bekannten Gallup Organization), der 1936 den Ausgang der US-Präsidentschaftswahl mit einer Stichprobe von nur 5000 Wählern sehr genau vorhersagen konnte, während die Analysten des Literary Digest mit einer Mega-Stichprobe von 2,3 Millionen Probanden zu einer (auch für das Magazin) desaströsen Fehleinschätzung des Wahlausgangs gelangten. Wie Gallup zeigte, kommt es primär auf das Verfahren der Stichprobenziehung an – und erst wenn die Stichprobe sauber gezogen wird, lohnt es sich über die optimale Größe derselben nachzudenken. (Mehr hierzu in meinem kurzen Artikel über das Literary Digest Desaster von 1936 für die Nachwuchswissenschaftlerkonferenz 2007).

Wenn für eine Zufallsstichprobe oder ein adäquates Ersatzverfahren gesorgt wurde, tritt jedoch die Frage nach der optimalen Stichprobengröße wieder in den Vordergrund. Wie also lässt sich diese (mathematisch) bestimmen? In der Praxis existieren hier verschiedene Ansätze, wobei ich mit der Formel von William G. Cochran bisher die besten Erfahrungen gemacht habe:

Die Formel basiert auf den aus der Statistik bekannten Konfidenzintervallen. Diese schließen ein Merkmal mit einer gewissen Sicherheit zwischen zwei Grenzwerten ein (Beispiel: „Der prozentuale Anteil an den Unterstützern einer bestimmten Petition unter Familienvätern liegt mit einer Sicherheit von 95% zwischen 16% und 18%). Wer sich für die Mathematik hinter der Formel interessiert, kann sich in der Originalquelle von Cochran näher informieren:

Cochran, W. G. 1963. Sampling Techniques, 2nd Ed., New York: John Wiley and Sons, Inc. (in nahezu jeder Hochschulbibliothek zu finden)

Für alle Studenten, die lediglich einmalig ein Erhebungsprojekt umsetzen möchten und daher einen Richtwert für die Stichprobengröße benötigen, ist es aber sicher viel interessanter zu erfahren, welche Werte in die Formel eingehen: N (Die Größe der Grundgesamtheit), e (Die „+/-“ - Breite des Konfidenzintervalls), p (Der Stichprobenanteil), q (entspricht 1 – p) und der Z-Wert aus der Standardnormalverteilung für die gewünschte Sicherheit des Konfidenzintervalls (d.h. 1,96 für ein Intervall mit 95%iger Sicherheit). Wenn man den Stichprobenanteil (den Anteil an Probanden, welche die untersuchte Merkmalsausprägung aufweisen) nicht kennt, was ja häufig der Fall ist, setzt man im Sinne einer konservativen Schätzung der optimalen Stichprobengröße üblicherweise 50% ein, womit die maximale Schwankungsbreite erreicht wäre (und damit auch der "ungünstigste" Fall, der zu einer Maximierung des Stichprobenumfangs führt).

Wer einmal nachrechnen möchte: Bei einer Grundgesamtheit von 20.000 Personen, einem unbekannten Stichprobenanteil (also ersatzweise p = 0.5) und einer Intervallbreite von +/- 3% um den Stichprobenanteilswert (e = 0.03) sollten mindestens 1015 Personen befragt werden. Befolgt man diesen Hinweis und wird zudem eine saubere Stichprobe gezogen, so ist davon auszugehen, dass der „reale“ Anteilswert in der Grundgesamtheit (der sich nur durch eine Vollerhebung ermitteln ließe) mit 95%iger Wahrscheinlichkeit nur um maximal +/- 3% vom in der Stichprobe gefundenen Wert abweicht.

Einer meiner besten Kunden fragte kürzlich an, ob es nicht möglich wäre, ein Softwaretool zu programmieren, das einem die Berechnung der optimalen Stichprobengröße abnimmt. Nach einer Reaktivierung meiner leicht angestaubten VisualBasic-Kenntnisse aus dem Informatik-Studium und zwei Versionsupdates bin ich mit dem Tool inzwischen soweit zufrieden, dass ich es auch allen anderen Interessierten zur Verfügung stellen möchte – natürlich kostenlos.

Mit SampleSizer (aktuell in der Version 1.2.0.4) lässt sich also die optimale Stichprobengröße ganz einfach berechnen: Nachdem man die Größe der Grundgesamtheit, den erwarteten Stichprobenanteilswert (oder, wenn unbekannt, alternativ 0.5) sowie die maximale Abweichung nach oben oder unten im Konfidenzintervall eingegeben hat, reicht ein Klick auf den „Berechnen“-Button aus, um den Richtwert für die Stichprobengröße nach Cochran zu erhalten:

Das Programm lässt sich hier als zip-File herunterladen. Nachdem man die Datei in ein Verzeichnis entpackt hat, kann man dort mit einem Klick auf „Setup“ die Installationsroutine starten, bei der eventuell (falls auf dem Rechner noch nicht vorhanden) zusätzlich ein paar .NET-Komponenten vom Microsoft-Server heruntergeladen werden. Wer möchte, kann SampleSizer sowohl für private als auch für kommerzielle Zwecke frei einsetzen, verändert werden darf es jedoch nicht. Dafür darf es gerne weitergegeben oder auf anderen Homepages zum Download angeboten werden (natürlich auch kostenfrei), solange dabei die Quelle genannt wird.

Wie bei Freeware üblich distanziere ich mich natürlich von allen Schäden, die durch Installation oder Verwendung der Software oder die falsche Interpretation der Ergebnisse eintreten könnten (Bei MS-Software weiß man das ja nie so genau, aber mit VB habe ich bisher eigentlich nur gute bis hervorragende Erfahrungen gesammelt). Ich hoffe, der eine oder andere meiner Blogleser kann das Tool gebrauchen und freue mich natürlich über jede Rückmeldung und alle (auch kritischen) Verbesserungsvorschläge.

Wer also noch Ideen hat, wie man das Tool verbessern könnte, kann sich jederzeit gerne an mich wenden. Wer darüber hinaus eine Idee oder Anregung hat, welche „Statistik-Tools“ ebenfalls von allgemeinem Interesse sein könnten, kann mir ebenfalls gerne schreiben. Vielleicht lässt sich die eine oder andere Idee ja ohne allzugroßen Aufwand umsetzen – und dann könnte es in Zukunft in diesem Blog natürlich öfter mal ein Downloadangebot geben.