Mittwoch, 27. Februar 2008

DESTATIS und de juris

Ein äußerst interessantes Urteil fällte in der letzten Woche das Verwaltungsgericht Wiesbaden. Danach sind Unternehmen verpflichtet, interne Daten an das Statistische Bundesamt herauszugeben. Dagegen geklagt hatte ein Großhandelsunternehmen aus Schleswig-Holstein, welches die Anforderung des Bundesamtes als Eingriff in das Recht auf informelle Selbstbestimmung wertete.

Das Unternehmen bemängelte zudem, dass neben Aspekten des Datenschutzes auch die Kriterien unklar seien, nach denen das Bundesamt die zur Auskunft verpflichteten Unternehmen auswählt. Dieser Einschätzung widersprach das Gericht und stellte fest, dass die Grundgesamtheit an theoretisch zur Auskunft verpflichteten Unternehmen sehr wohl feststehe, und dass das Bundesamt berechtigt sei, aus diesen eine Auswahl nach eigenem Urteil zu treffen. Eine Auswahl von Unternehmen aus einer vorgegebenen Grundgesamtheit – klingt für mich nach einer Stichprobe, wobei man bei Verwendung eines einfachen Stichprobenverfahrens diesen „Mechanismus“ ja problemlos hätte offenlegen können.

Das Großhandelsunternehmen bemängelte außerdem, dass die Nicht-Zuordnung der Daten nicht gewährleistet sei, da es in Schleswig-Holstein nur fünf Unternehmen der gleichen Größenordnung gäbe. Auch dieser Einschätzung widersprach das Gericht – wären alle fünf Unternehmen dazu verpflichtet, Daten abzuliefern, dann könnte man konkrete Geschäftszahlen nicht mehr zuordnen.

Das Urteil ist für Statistiker durchaus von Interesse – denn was passiert, wenn in einer zufällig gewählten Stichprobe einmal nur ein Unternehmen einer bestimmten Größenklasse auftaucht? Muss die Stichprobe dann aus juristischen Gründen so erweitert werden, dass eine Nicht-Zuordnung der Daten gewährleistet werden kann? Die Repräsentativität einer Erhebung würde unter solchen Maßnahmen selbstverständlich leiden, so dass unklar bleibt, was in einem solchen Fall zu geschehen hat. Mir hat sich zudem nicht erschlossen, wieso die Nicht-Zuordnung der Daten nur durch die Aufnahme von Daten ähnlicher Betriebe gewährleistet werden kann, und nicht durch die vollständige Anonymität der Erhebung selbst.

So oder so wird das Bundesamt wohl noch eine Weile auf die Daten warten müssen, denn ein abschließendes Urteil in der Datenklage steht noch aus: Das Großhandelsunternehmen hat bereits angekündigt, gegen das Urteil von Wiesbaden beim Bundesverwaltungsgericht in Leipzig Revision einzulegen.

Montag, 25. Februar 2008

Neues Zentrum für Statistik in Bielefeld

Die Bedeutung von Statistiken in Wirtschaft, Politik und Gesellschaftswissenschaften hat über die letzten Jahrzehnte kontinuierlich zugenommen. Besonders für die Marktforschung, ein Wirtschaftszweig der in den letzten Jahren kontinuierlich gewachsen ist, stellt die Statistik natürlich so etwas wie eine „Leib- und Magenwissenschaft“ dar.

Gerade im Zuge der immer wichtiger werdenden Online-Marktforschung ist es wichtig, neben grundlegenden Kenntnissen über statistische Verfahren auch über wesentliche Methodenkenntnisse zu verfügen, da die Umsetzung von traditionellen „Offline-Befragungen“ in der Online-Welt mit vielen Einschränkungen und Problemen behaftet ist. Aber nicht nur online, auch offline sind theoretische Kenntnisse unabdingbar, wenn man saubere und wissenschaftlich korrekte Marktforschung betreiben will.

Um so erfreulicher ist da eine aktuelle Meldung des Informationsdienst Wissenschaft: An der Universität Bielefeld hat man die fachbereichsübergreifende Bedeutung der Statistik klar erkannt und bringt in einem in der letzten Woche neugegründeten „Zentrum für Statistik“ Wissenschaftler mit verschiedenen fachlichen Backgrounds zusammen. Durch die Zentralisierung der Statistik sollen die methodisch, empirisch und statistisch orientierten Wissenschaftler ihr Wissen bündeln, während gleichzeitig die jeweiligen fachspezifischen Richtungen der Statistik erhalten bleiben.

Der Blick auf die Liste der im Zentrum vertretenen Professoren offenbart die breite wissenschaftliche Bedeutung der Statistik: Mit Fachleuten aus den Bereichen Marketing, Ökonometrie, Wirtschaftswissenschaften, Mathematik, Demographie, Epidemiologie, Sozialforschung und Methodenlehre ist das Zentrum bereits gut aufgestellt. Es kommt jedoch noch besser, denn auch der Aufbau eines Master- beziehungsweise Promotionsstudiengangs "Statistische Wissenschaften" ist bereits fest eingeplant. In Kooperation mit dem Bielefelder Zentrum für Statistk-Beratung (StatBeCe) sowie der Statistik- und Methodenberatung für Psychologinnen und Psychologen soll das neue Zentrum für Statistik vor allem Wissenschaftler und Studierende beraten, wobei auch angedacht ist, die Leistungen des Zentrums für Industrie und Verwaltung zu öffnen.

Den Mitarbeitern und Kollegen um Statistik-Professor Dr. Kauermann kann man zu diesem ambitionierten Vorhaben wohl nur gratulieren und ihnen mit dem neuen Statistik-Zentrum einen guten Start wünschen. Sobald das gebündelte Statistik-Wissen aus Bielefeld im Netz präsentiert wird, wird es im Statistik-Blog sicher einen weiteren Link in der Blogroll geben.

Montag, 18. Februar 2008

Der Befrager – Online-Befragungen leicht gemacht

Aus vielen E-Mails weiß ich, dass in diesem Blog auch einige Studentinnen und Studenten mitlesen. Für all diejenigen Studierenden unter meinen Lesern, die im Rahmen einer Semester- oder Abschlussarbeit eine Online-Befragung durchführen möchten (eine empirische Untersuchung bietet sich ja bei vielen Aufgabenstellungen an), stellt sich natürlich auch die Frage, mit welcher Software der Fragebogen erstellt werden kann – es sei denn natürlich, man möchte sich selbst an der HTML-Programmierung versuchen (für Informatiker kann das ja ganz reizvoll sein). Für alle anderen, die sich die Arbeit so einfach wie möglich machen wollen, lohnt sich ein Blick auf das kostenfreie Online-Fragebogensystem „Befrager“, das im Netz unter http://www.befrager.de zu finden ist.

Beim "Befrager" handelt es sich um eine von Christian Hansen entwickelte Software, mit der man äußerst einfach und komfortabel Onlinebefragungen erstellen kann. Das ganze System läuft komplett auf dem Webserver des Anbieters ab, was für den Nutzer den großen Vorteil hat, dass nichts heruntergeladen oder installiert werden muss. Statt dessen kann man den Fragebogen direkt im eigenen Browser erstellen, testen und für die Probanden freigeben. Die einzige Voraussetzung für die Nutzung ist ein Browser der JavaScript beherrscht und Cookies annehmen kann. Sind diese Voraussetzungen erfüllt, steht der Erstellung beliebig vieler Online-Fragebögen nichts mehr im Wege, wobei man auf eine Vielzahl an Frageformen und Features zurückgreifen kann.

Um einmal einen kleinen Einblick in die Möglichkeiten zu geben, habe ich ein paar alte Screenshots einer Online-Befragung herausgesucht, die ich 2005 im Rahmen meiner Diplomarbeit mit dem "Befrager" erstellt habe. Die Befragung wurde im Auftrag der Bürgerinitiative "Höchste Eisenbahn für den Südharz" durchgeführt, die sich für den Erhalt und den Ausbau der Südharz-Eisenbahnstrecke einsetzt. Der Fragebogen richtete sich an Mitglieder und Unterstützer der Initiative, Ziel der Erhebung war es, etwas über deren ÖPNV-Nutzungsgewohnheiten in Erfahrung zu bringen.

Hier sieht man eine HTML-Frageseite aus der ÖPNV-Befragung mit einigen Radiobuttons. Von den vorgegebenen Antwortmöglichkeiten lässt sich bei diesem Fragetyp immer nur eine selektieren – und auch ob die Frage einfach vom Probanden übersprungen werden kann, lässt sich im "Befrager" festlegen.

Auf dieser HTML-Frageseite wurden mehrere 5-stufige Skalen eingesetzt, eine Frageform, die auch als "semantisches Differential" bekannt ist. Wer die recht kleinen Screenshots übrigens näher betrachten möchte, kann sie sich jederzeit mit einem einfachen Mausklick in vergrößerter Form anzeigen lassen.

Dieser Screenshot zeigt eine typische Matrixfrage. Wer sich bereits näher mit Online-Befragungen beschäftigt hat erkennt, dass die Matrix bereits recht umfangreich ausfällt, der empfohlene maximale Rahmen von 6 x 6 Feldern aber noch nicht überschritten wurde. Noch umfangreichere Frage-Matrizen wirken dagegen unübersichtlich und können unter Umständen dazu beitragen, dass Probanden die Beantwortung des Fragebogens vorzeitig abbrechen (man bezeichnet dies in der Online-Marktforschung auch als Drop-Out).

Der letzte Screenshot zeigt, dass man auch Grafiken in die Befragung einbinden kann. Oberhalb des Bildes erkennt man zudem ein Feld für die Eingabe eines freien Textes als Antwort auf eine offene Frage, die sich mit dem "Befrager" ebenfalls realisieren lässt.

Das grafische Design des Fragebogens kann übrigens auf vielfältige Art und Weise verändert werden, so dass einer individuellen Fragebogengestaltung kaum Hindernisse im Wege stehen. Neben vielen Frageformen und einem guten grafischen Editor bietet der "Befrager" viele weitere Features, die sich im Rahmen eines einfachen Blogposts leider nicht demonstrieren lassen, wie beispielsweise eine Vollständigkeitsprüfung, eine sehr gute Filterführung oder die Möglichkeit, sich nach Abschluss der Feldzeit alle Ergebnisse in einer SPSS-Datei zusammengefasst herunterladen zu können.

Alles in allem eine wirklich gute Software, die durchaus mit kommerziellen Paketen mithalten kann, und die sich gerade aufgrund der kostenfreien Nutzbarkeit vor allem für Studierende eignet, die ja eher selten über ein großes Softwarebudget verfügen. Wer also in nächster Zeit eine Online-Befragung plant, sollte vielleicht schon mal einen kurzen Abstecher auf http://www.befrager.de unternehmen und sich die Seite bookmarken.

Eine Kurzübersicht der Ergebnisse meiner ÖPNV-Befragung von 2005 wurde übrigens im „Weissbuch zur Vermarktung von Bahn und Bus im Südharz“ veröffentlicht – und aus der Diplomarbeit entstand im letzten Jahr mein zweites Buch, "Möglichkeiten und Grenzen von Online-Befragungen", das unter anderem bei Amazon erhältlich ist.

Montag, 4. Februar 2008

NSDstat-Kurs: Interpretation eines Histogramms

Im vierten Teil des Blog-Tutorials zur Analysesoftware NSDstat Pro soll nun nach dem Box-Plot auch noch auf die Interpretation des Histogramms eingegangen werden, das ja von NSDstat stets gemeinsam mit dem Box-Plot ausgegeben wird. Als Beispieldatensatz dient wieder einmal die bekannte Jugendlichen-Befragung zum Thema Politik, als Beispielvariable erneut die Variable v8 – Politisches Interesse. Die ersten zwei Schritte – Auswahl der Variablen und Erstellung der univariaten Analyseübersicht – sind somit identisch mit den ersten beiden Schritten der letzten Tutorial-Kapitel.

Wer die Erinnerung an die genaue Vorgehensweise noch einmal etwas auffrischen will, kann dies übrigens
hier tun. Wie immer lassen sich übrigens auch in diesem Tutorial-Posting die Grafiken mit einem Mausklick vergrößert darstellen.

Ein Klick auf das Grafik-Icon (das dritte Icon von oben) öffnet in der univariaten Statistik die grafische Übersicht, die bei NSDstat stets aus dem Histogramm mit der eingeblendeten Normalverteilungskurve sowie dem darunterliegenden Box-Plot besteht, dessen Interpretation ja bereits im letzten Teil dieses Tutorials ausführlich beleuchtet wurde.

Ein solches Histogramm stellt die Häufigkeitsverteilung der Werte einer intervallskalierten Variablen dar (diese Voraussetzung sollte erfüllt sein – ist sie es nicht, lässt sich das Histogramm nicht sinnvoll interpretieren). Histogramme eignen sich primär für die Darstellung von stetigen Merkmalen mit einer größeren Anzahl an Ausprägungen. Bei der Konstruktion der Grafik wird von den nach der Größe geordneten Daten ausgegangen, die in eine bestimmte Anzahl von Klassen aufgeteilt werden. Über jeder dieser Klassen wird ein Rechteck konstruiert, dessen Flächeninhalt sich proportional zur absoluten bzw. relativen Häufigkeit der jeweiligen Klasse verhält.

Diese Klassen müssen nicht zwangsweise die gleiche Breite besitzen – es ist aber durchaus von Vorteil wenn es so ist, da nur dann der grafische Vergleich mit der Normalverteilung möglich wird. Aus diesem Grund werden Histogramme in den meisten Statistikprogrammen per Default stets mit gleichbreiten Klassen erzeugt – so beispielsweise in SPSS, wie die untenstehende Grafik verdeutlicht. Auch in NSDStat haben alle Histogramme automatisch gleichbreite Klassen, eine Voreinstellung, die auch durch den User nicht aufgehoben werden kann.

Aber welcher Vorteil ergibt sich durch das Einblenden der besagten Kurve? Nun, viele statistische Verfahren in der Marktforschung setzen voraus, dass bestimmte Variablen in der Grundgesamtheit normalverteilt sind (so beispielsweise die Varianzanalyse). Der Marktforscher muss daher häufig prüfen, ob vom Vorliegen einer solchen Verteilung ausgegangen werden kann, wobei eine näherungsweise Übereinstimmung häufig für die Fortsetzung der Analyse ausreichend ist – eine perfekte Übereinstimmung ist bei Daten aus einer Stichprobe ja ohnehin nicht zu erwarten.

Diese Prüfung auf Normalverteilung kann unter anderem anhand eines Histogramms mit eingeblendeter Normalverteilungskurve erfolgen, wobei aus mathematischer Sicht bessere Optionen existieren (mehr dazu weiter unten). Da die Balken des Histogramms die komplette Breite der Wertebereiche widerspiegeln und zudem für leere Wertebereiche ein Freiraum ausgegeben wird, kommt im Histogramm die gesamte empirische Verteilung der Variablen zum Ausdruck. Dies ermöglicht den direkten Vergleich mit einer eingezeichneten theoretischen Verteilung wie beispielsweise der Normalverteilung.

Je schwächer der Balkenverlauf dem Verlauf der eingeblendeten Normalverteilungskurve folgt, desto eher ist davon auszugehen, dass keine Normalverteilung vorliegt. Nachfolgend dazu noch ein Beispiel mit einer anderen Variablen – v9, in der das Vertrauen, welches die Jugendlichen ganz allgemein in Politiker setzen, auf der bereits von v8 bekannten Skala erfasst wurde.

Auch hier ist – analog zur bisherigen Beispielvariable v8 – zu erkennen, dass die eingeblendete Normalverteilungskurve mit dem Balkenverlauf sehr gut zusammenpasst.

Bei der Interpretation solcher Ergebnisse ist aber stets zu beachten, dass es sich lediglich um eine Prüfung und keinen statistischen Test handelt. Dies bedeutet, dass in die Grafik ausschließlich die vorliegenden Werte aus der Stichprobe einfließen, die ja nicht zwangsweise die Verteilungsverhältnisse in der Grundgesamtheit optimal abbilden, sondern aufgrund von Zufallseffekten auch stark abweichende Verhältnisse aufweisen können. Einen Test auf Vorliegen einer Normalverteilung kann nur anhand eines „echten“ statistischen Tests wie des Kolmogorov-Smirnov-Anpassungstests erfolgen, nicht aber anhand einer grafischen Prüfung – es sei denn, es liegen die Daten einer Vollerhebung vor.

Handelt es sich jedoch um Daten aus einer Stichprobe, was in der Praxis ja meist der Fall sein wird, so stellen die grafischen Prüfungen lediglich einen Indikator dafür da, inwiefern ein Test überhaupt sinnvoll erscheint – allerdings einen guten, weshalb man sie vor der Durchführung eines aufwändigen Testverfahrens unbedingt einmal ansehen sollte.

In den nächsten Teilen dieses Tutorials lösen wir uns von der univariaten Datenanalyse und wenden uns den bivariaten Statistiken zu, wobei es im nächsten Tutorial erst einmal um die Erstellung von einfachen Kreuztabellen sowie die Durchführung von Chi²-Tests gehen wird.

Freitag, 1. Februar 2008

Wenige Kundenbefragungen = viel Erfolg?

Kundenbefragungen sind in der Marktforschung ein beliebtes Instrument, da sie wichtige Erkenntnisse zur Akzeptanz von Produkten und Dienstleistungen liefern und zugleich die Kundenbindung fördern - so oder so ähnlich lässt sich die aktuelle Lehrmeinung zusammenfassen. Doch nun behaupten die Experten der Deutschen Gesellschaft für Qualität und des Mainzer forum! Marktforschung angeblich das genaue Gegenteil - weniger, dafür aber konsequent umgesetzte Kundenbefragungen sind nach einer Umfrage aus dem aktuellen Excellence Barometer deutlich wertvoller für ein Unternehmen als häufiger durchgeführte Befragungen, deren Ergebnisse ohne Folgen bleiben.

Auf finanztreff.de und anderen Marketing- und Finanz-Portalen haben diese Erkenntnisse so manchen Online-Redakteur bereits dazu verleitet, mit Headlines wie "Erfolgreiche Firmen befragen ihre Kunden seltener" das Interesse an der Studie zu schüren. Führt man sich die Zusammenfassung der Ergebnisse aber noch einmal genau vor Augen, so fällt auf, dass der entscheidende Faktor nicht die Frequenz der Befragungen, sondern die aus den Ergebnissen gezogenen Konsequenzen sind. Eigentlich ganz logisch - eine Kundenbefragung im Jahr, deren Ergebnisse dann auch wirklich ernst genommen und zur Serviceverbesserung genutzt werden ist viel sinnvoller, als zehn Befragungen, deren Ergebnisse in der Ecke landen.

Mich erinnert dies an eine Reiseerzählung von Bill Bryson, einem meiner Lieblingsautoren. Auf einer Flugreise fällt ihm das offizielle Bordmagazine der Airline in die Hände. Auch diese hat eine Kundenbefragung durchgeführt und dabei herausgefunden, dass sich Fluggäste vor allem wünschen, dass sie ohne einen Absturz und möglichst pünktlich ihr Reiseziel erreichen und dass ihr Gepäck von der Airline nicht verloren wird. Bryson wundert sich: Lebend, pünktlich und mit Gepäck - und dafür machen die nun Marktforschung?

Die Anekdote passt aus zwei Gründen. Zum einen haben die Qualitätsexperten vollkommen Recht wenn sie feststellen, dass in Unternehmen manchmal zuviel befragt wird und dass die Ergebnisse - ähnlich wie bei der Airline-Befragung - kaum ernstgenommen werden können, da es sich entweder um Dinge handelt, die man längst weiß, oder aber um Allgemeinplätze, die im Grunde kaum umgesetzt werden können. Ohne Absturz und mit Gepäck...

Die Brysonsche Kurzgeschichte kommt mir aber auch in den Sinn, da die Ergebnisse der Qualitätsstudie mich unwillkürlich ebenfalls an die Ergebnisse der Airline-Befragung erinnern. Wenige Befragungen, deren Ergebnisse zur Verbesserung von Service oder Produkten verwendet werden, sind also für den Erfolg beim Kunden besser geeignet als viele Befragungen, deren Ergebnisse nie umgesetzt werden? Auch das ist im Grunde keine bahnbrechende Erkenntnis, wobei man sich schon fragt, warum die Frequenz der Erhebungen überhaupt eine Rolle spielt. Wenn nur wenige Befragungen durchgeführt werden, deren Ergebnisse dann in der Ecke landen, sollten die Auswirkungen auf den Erfolg sich doch ähnlich in Grenzen halten wie bei vielen unnützen Befragungen. Und wenn man den Kunden häufig befragen und die Ergebnisse dann jedesmal geschwind in eine Verbesserung des eigenen Angebots einfließen lassen würde?

Die Erklärung ist im Grunde banal: Häufige Erhebungen sind deshalb keine gute Strategie, weil den meisten Unternehmen nicht über die Ressourcen verfügen, sich mit den Ergebnissen jeder Studie zu befassen. Man könnte die Ergebnisse der Qualitätsforscher daher auch so zusammenfassen: "Kein Unternehmer sollte sich mehr Arbeit aufladen, als realistischerweise zu bewältigen ist." Oder so: "Erfolgreiche Unternehmer fangen nur dann etwas an, wenn es auch anständig zuende geführt werden kann." Das ist nicht nur eine durchaus wichtige Erkenntnis, es macht auch viel mehr Sinn als "Erfolgreiche Unternehmer befragen ihre Kunden seltener" - dafür gibt es aber - zugegebenermaßen - keine so interessante Headline ab.