Montag, 31. Dezember 2007

Jahresrückblick und Jahresvorschau

Nun da sich 2007 immer schneller dem Ende zuneigt wird es Zeit, das alte Jahr noch einmal Revue passieren zu lassen und sich Gedanken darüber zu machen, welche Ziele im kommenden Jahr verwirklicht werden sollen – dies ist im Geschäftsleben nicht anders als im privaten Bereich und gilt daher auch im Falle der Statistikberatung.

Mit 2007 endet das erste „volle“ Jahr der im November 2006 gegründeten Statistikberatung Reinboth und auch dieser Blog existiert nun schon ein halbes Jahr. Vieles von dem, was ich in diesem ersten Geschäftsjahr über das Business gelernt habe, findet sich in meinem Post zum einjährigen Bestehen des Consulting-Services und soll an dieser Stelle nicht noch einmal ausgebreitet werden. Ich kann aber mit Freuden feststellen, dass sich im ablaufenden Jahr sowohl eine kleine Gruppe regelmäßiger Auftraggeber für die Statistikberatung als auch eine Handvoll wiederkehrender Leser für den Statistik-Weblog gefunden hat – ein Ergebnis, das mich sowohl mit Freude als auch mit Zuversicht für das kommende Jahr erfüllt.

Besonders spannend finde ich auch die ab und an eintrudelnden Anfragen von Studentinnen und Studenten aus dem gesamten Bundesgebiet, die bei einer empirischen Untersuchung festhängen oder eine gezielte Frage zur multivariaten Datenanalyse loswerden wollen. Auch für 2008 wird weiterhin gelten: Alle Anfragen von Studierenden, die sich in unter zwei Studen abhandeln lassen, werden gerne kostenlos bearbeitet – und für aufwändigere Anfragen lassen sich immer auch Sondertarife finden.

Für das Jahr 2008 steht eine Verbreiterung meiner Servicebasis an: Ab sofort werde ich auch die saubere Codierung von Fragebögen sowie (in begrenztem Umfang) die Durchführung und Auswertung qualitativer Untersuchungen anbieten (wie beispielsweise das Laddering). Die bisherigen Angebote bleiben natürlich in vollem Umfang erhalten: Planung und Begleitung von Online- und Offline-Erhebungen, Fragebogen-Design, Repräsentativitätsdiagnostik, Kreuztabellierungen sowie die mathematisch saubere Durchführung und Interpretation multivariater Datenanalysen.

Soweit es die Web-Projekte betrifft habe ich mir vorgenommen, mein Engagement in 2008 noch zu steigern: Mit Sicherheit wird es viele weitere Beiträge auf diesem Blog geben, darunter mindestens ein Dutzend weiterer Folgen des im letzten Monat gestarteten NSDStat-Tutorials – und auch im Marktforschungs-Wiki werde ich nach längerer Zeit wieder einmal ein paar neue Items einpflegen. Darüber hinaus ist für das kommende Jahr eine umfangreiche SEO-Kampagne für die verschiedenen Statistik-Webseiten geplant – ich bin schon gespannt inwiefern es mir gelingen wird, die Wiki-Pages oder Blogbeiträge bei Suchbegriffen wie Fakorenanalyse oder Interquartilsabstand auf vordere google-Plazierungen zu bringen. Auch meine beiden Bücher zur multivariaten Datenanalyse sowie zur Online-Marktforschung will ich noch stärker vermarkten – ein drittes Buch über das ich an dieser Stelle noch nicht viel verraten kann, befindet sich übrigens bereits in Arbeit und wird mit etwas Glück vielleicht noch 2008 erscheinen.

Gelegentlich werde ich gefragt, ob ich im kommenden Jahr nicht vielleicht die freiberufliche Tätigkeit an den Nagel hängen und Vollzeit in die Marktforschung wechseln möchte. Dazu kann ich nur sagen, dass es mich zwar prinzipiell sehr reizen würde, mich voll und ganz der Statistik zu widmen, dass ich aber arge Probleme mit der teils unwissenschaftlichen Art und Weise habe, mit der in vielen Instituten und Agenturen Datenanalyse betrieben wird und die ja erst kürzlich wieder durch den hervorragenden Beitrag von Frau Jaksch kritisch beleuchtet wurde. Dazu kommt noch, dass die von mir Ende 2006 (mit-) gegründete und inzwischen zum An-Institut der HS Harz avancierte HarzOptics GmbH von Monat zu Monat mehr Aufträge zu verzeichnen hat, und ich inzwischen viel Gefallen an der für einen Analytiker zwar fachfremden aber dennoch unglaublich spannenden Welt der Photonik-Forschung gefunden habe (mehr Infos zur Arbeit bei HarzOptics gibt es übrigens in meinem Photonik-Blog).

Die freiberufliche Tätigkeit im Marktforschungs-Bereich ist zudem mit sehr vielen Abwechslungen und damit Herausforderungen verbunden, da sich die Aufträge teils stark voneinander unterscheiden und jede Aufgabe mich zwingt, mit anderen Methoden an die Daten heranzugehen – dies hält mich methodisch fit und sorgt dafür, dass ich – wenn ich doch einmal den Sprung in eines der Institute antreten sollte – einem potenziellen Arbeitgeber auch viel zu bieten habe. Als letzter wichtiger Grund kommt für mich dazu, dass ich nun schon das fünfte Semester in Folge diverse Kurse (mit und ohne Bezug zur Statistik) an der HS Harz unterrichte und inzwischen an der Vermittlung von Wissen an aufgeweckte junge Menschen so viel Freude gefunden habe, dass es mir sicher schwer fallen würde, diese Tätigkeit ganz einzustellen.

Meine geschäftliche Prognose für 2008 lautet daher, dass die Türen der Statistikberatung Reinboth auch noch ein weiteres Jahr allen interessierten Kunden offen stehen werden. Ich für meinen Teil freue mich in jedem Fall auf die kommenden Herausforderungen und hoffe auch im neuen Jahr wieder auf viele interessante und abwechslungsreiche Aufträge aus allen Teilbereichen der Marktforschung.

NSDstat-Kurs: Erstellung univariater Statistiken

Im zweiten Teil des Blog-Tutorials zur Analysesoftware NSDstat Pro soll wie angekündigt gezeigt werden, wie man zu univariaten Statistiken gelangt, und zwar einschließlich der Lage- und Streuungsmaße sowie der Konfidenzintervalle. Als Beispiel wird erneut der NSDstat Demo-Datensatz zum politischen Interesse von Schülern verwendet.

Im ersten Schritt ist – wie schon im ersten Teil dieses Tutorials demonstriert – in der Variablenliste diejenige Variable zu wählen, die nachfolgend näher untersucht werden soll, in unserem Fall die v8 – Politisches Interesse.

Durch einen Klick auf „Univariate Statistiken“ (das zweite Symbol aus der obersten Symbolleiste) gelangt man in die Auswahl der univariaten Analyseoptionen, wobei wir uns für die zweite Option „Univariate Statistiken“ entscheiden, hinter der sich die Berechnung einer ganzen Reihe interessanter Kennwerte aus der Statistik I & II verbirgt. Mit einem weiteren Klick auf den nach Rechts zeigenden Pfeil übernehmen wir die selektierte Variable v8 in die Auswahlliste der zu analysierenden Variablen.

Ein Klick auf OK bringt uns in den Ergebnisbildschirm. Wie der Screenshot zeigt, hat NSDstat hier zunächst einmal sechs Werte ausgegeben: Das arithmetische Mittel (in dieser Übersicht einfach als „Mittelwert“ bezeichnet), die Summe aller Ergebniswerte (aufgrund der Fragestellung von v8 eher von untergeordnetem Interesse), den minimalen und den maximalen Wert (aus denen man ja auch leicht die Spannweite berechnen könnte, wenn dies erforderlich wäre – was hier ebenfalls aufgrund der Fragestellung von v8 nicht der Fall ist) sowie die Gesamtzahl der verarbeiteten Fälle (N) und die Standardabweichung.

Zu beachten ist, dass NSDStat in diesem Ausgabebildschirm erst einmal für jede Variable das arithmetische Mittel sowie die Standardabweichung ausgibt, auch wenn dies aufgrund des Skalenniveaus der Variablen mathematisch nicht angebracht ist. Wenn man sich über die „Volltext-Dokumentation“ in der Variablenauswahl die Originalfrage zur Variablen v8 noch einmal anzeigen lässt, stößt man dabei nämlich auf folgendes Konstrukt:

Würdest du sagen, du bist im allgemeinen an Politik sehr stark interessiert, stark interessiert, weniger interessiert oder garnicht interessiert?

1 [ ] Sehr stark
2 [ ] Stark
3 [ ] Wenig
4 [ ] Gar nicht
9 [ ] Weiß nicht

Es liegt also eindeutig ein ordinal skaliertes Merkmal vor, so dass die Berechnung des arithmetischen Mittels (ebenso wie die der Standardabweichung) im Grunde gar nicht zulässig war. Wer sich noch einmal vergegenwärtigen möchte, wie man zwischen den einzelnen Skalenniveaus unterscheidet, dem sei an dieser Stelle mein Online-Lernmodul zu den Lagemaßen bei lernmodule.net ans Herz gelegt. Festzuhalten ist auf jeden Fall, dass der Anwender entscheiden muss, ob eine bestimmte Rechnung aufgrund des Skalenniveaus überhaupt durchgeführt werden kann oder nicht – NSDStat nimmt einem diese Entscheidung nicht ab und berechnet – überspitzt formuliert – auch aus einer Liste mit Telefonnummern erst einmal die „Durchschnittsnummer“ sowie die Standardabweichung. Aus diesem Grund sind Methodenkenntnisse des Anwenders auch dann gefragt, wenn die eigentlichen Berechnungen nur noch mit Software durchgeführt werden.

Aber zurück zur Beispielaufgabe: Ein Rechtsklick und die Selektion von „Optionen“ eröffnet ein weiteres Menü, in dem nun zusätzliche Einstellungen getätigt werden können. So lassen sich neben dem arithmetisches Mittel auch noch der Median und die Quartile einblenden, die übrigens in diesem Fall aufgrund des Skalenniveaus die bessere Wahl sind. Weiterhin möglich ist die Anzeige von Schiefe und Kurtosis sowie der Konfidenzintervalle zu 95% und 99%, womit ein Großteil der aus der Statistik I & II bekannten Kennzahlen abgedeckt wäre. Hinter dem zweiten Reiter in dieser Übersicht mit der Bezeichnung „Häufigkeitspolygon“ verbirgt sich übrigens die Möglichkeit zur Erstellung von Box-Plots und weiteren Grafiken, die im dritten Teil dieses Tutorials näher betrachtet werden sollen.

Wie man sieht, haben wir die ursprüngliche Liste mit Kennzahlen durch die Selektion der weiteren angebotenen Werte deutlich ausbauen können – ein gutes Beispiel dafür, wie schnell und einfach sich mit NSDStat eine Vielzahl statistischer Größen berechnen lässt. Mit den beiden Grafik-Buttons im seitlichen Menü gelangt man von dieser Kennzahlen-Übersicht anschließend zur Darstellung des sogenannten Häufigkeitspolygons sowie des Box-Plots, die, wie schon erwähnt, Gegenstand des dritten NSDStat-Tutorials werden sollen, welches voraussichtlich in etwa zwei Wochen in diesem Blog erscheinen wird.

Dienstag, 4. Dezember 2007

Den Finger direkt in die Wunde gelegt...

Edith Jaksch, ihres Zeichens studierte Statistikerin und (Mit-) Gründerin der österreichischen Marktforschungsagentur Jaksch & Partner, hat in einem Interview mit dem Online-Magazin CHiLLi.cc auf ebenso drastische wie vernichtende Art und Weise auf einige Probleme in der modernen Marktforschung hingewiesen, über die ich in diesem Blog (wenn auch in deutlich zahmerer Sprache) auch schon gelegentlich berichtet habe.

Als "Leidensgenosse", der sich in der Welt der Marktforschung auch schon über viele geschönte Statistiken und unsaubere Praktiken ärgern musste, war die Lektüre des Interviews, insbesondere
dieses Abschnitts, für mich ein wahres Vergnügen. Wer sich schon immer gefragt hat, warum einem bei den "Marktforschungs-Profis" in der Regel auffallend wenige Mathematiker oder Statistiker begegnen, findet die Antwort in diesem Interview, aus dem ich nachfolgend einen kurzen Abschnitt zitieren möchte:

"Es klingt vielleicht komisch, aber die großen Meinungsforschungsinstitute haben fast gar keine Statistiker. Meistens arbeiten dort Betriebswirtschaftler mit Marketingausbildung, teilweise auch Psychologen, die sich zumindest ein wenig mit Statistik auskennen. [...] Ein Bekannter von mir ist Statistiker und hat kurz bei einem Marktforschungsinstitut gearbeitet. Er hat aber nach zwei Wochen wieder aufgehört, mit der Begründung: 'Dafür habe ich nicht studiert.' Jedes Mal wenn er versucht hat, auf Fehler aufmerksam zu machen, war die Antwort, dass alles aus Vergleichsgründen so bleiben muss. Das heißt, um ihre eigenen Daten untereinander vergleichen zu können, machen sie einfach immer dieselben Fehler. Das kann’s ja auch nicht sein."
[
Link zur Originalquelle]

Dieser Fundamentalkritik kann ich mich nur anschließen. Zum Glück sind meine Kunden in der absoluten Mehrzahl stets an wissenschaftlich sauberen Ergebnissen interessiert, so dass mir das Problem der "Vergleichbarmachung" durch absichtlichen Fehlereinbau erst selten begegnet ist - aber selbst in dem einen Jahr, in dem ich bislang als freier Berater in Sachen Statistik unterwegs bin, habe ich schon mehrere solcher Anfragen auf den Tisch bekommen. Von meinen Kollegen und Bekannten in den großen Agenturen im Konsumgüter-Bereich musste ich mir inzwischen erklären lassen, dass solche Praktiken in der "professionellen Marktforschung" leider nicht die Ausnahme, sondern ganz klar die Regel darstellen. Auch wenn es mich freut, mit meinen Dienstleistungen und für meine Kunden ein wenig gegen diesen Strom schwimmen zu können, ist es doch enttäuschend, an wie vielen anderen Stellen genau so gearbeitet wird - hier legt Frau Jaksch den Finger direkt in die schmerzende Wunde...


Allen Leidensgenossen aus der Markt- und Meinungsforschung kann ich nur empfehlen, diesen
lesenswerten Artikel in Gänze zu konsumieren. Es ist selten, dass die Probleme der Branche so deutlich benannt werden - mein Dank gilt daher an dieser Stelle Frau Jaksch für den Mut, die Dinge beim Namen zu nennen und sich gegen solche verfälschenden Praktiken auszusprechen.

Montag, 3. Dezember 2007

NSDstat-Kurs: Erstellung einer Häufigkeitsverteilung

Im ersten Teil dieses exklusiven Blog-Tutorials zur statistischen Analysesoftware NSDstat Prostatistische Lagemaße soll demonstriert werden, wie einfach sich eine univariate Häufigkeitsverteilung, eine einfache Verteilungsgrafik sowie einige grundlegende erstellen lassen. Als Beispiel wird einer der NSDstat Demo-Datensätze verwendet, in diesem Fall eine Befragung unter Schülern zum Themenbereich „Politik und politisches Interesse.“

Im ersten Schritt ist in der Variablenliste diejenige Variable zu wählen, die nachfolgend näher untersucht werden soll, also beispielsweise v8 – Politisches Interesse. Die originale Frage hinter dieser Variablen kann in der Variablenliste jederzeit durch einen Rechtsklick auf die Variable und die Auswahl der Option „Volltext-Dokumentation“ eingesehen werden.

(für eine vergrößerte Darstellung einfach auf die Screenshots klicken)

Durch einen Klick auf „Univariate Statistiken“ (das zweite Symbol in der obersten Symbolleiste) gelangt man in die Auswahl der univariaten Analyseoptionen, wobei wir uns für die erste Option „Häufigkeiten“ entscheiden – die Häufigkeitsverteilung. Mit einem weiteren Klick auf den nach Rechts zeigenden Pfeil übernehmen wir die bereits selektierte Variable v8 in die Auswahlliste der zu analysierenden Variablen. NDSstat ermöglicht die parallele Analyse von unbegrenzt vielen Variablen, wobei die Arbeit im Ergebnisbildschirm ab etwa 20 Variablen recht unübersichtlich werden kann.

Ein Klick auf OK bringt uns in den Ergebnisbildschirm. Wie der Screenshot zeigt, hat NSDstat hier eine Häufigkeitstabelle erstellt, die absolute Häufigkeiten, relative Häufigkeiten und relative gültige Häufigkeiten (relative Häufigkeiten in Bezug auf die tatsächlich eingegangenen Fälle, d.h. ohne fehlende Werte) zeigt, außerdem wird angegeben, wie viele Fälle in die Berechnung mit eingeflossen sind und wie viele fehlende Werte zu verzeichnen waren.

Ein Rechtsklick und die Selektion von „Optionen“ eröffnet ein weiteres Menü, in dem nun zusätzliche Einstellungen getätigt werden können. So lassen sich die drei gängigsten Lagemaße – arithmetisches Mittel, Median und Modus einblenden, außerdem kann eine Kumulierung der tabellierten Werte vorgenommen werden. Weitere Optionsmenüs eröffnen Möglichkeiten zum „Feintuning“ der NSDstat-Grafiken.

Eine der standardmäßig in der Ausgabe erzeugten Grafiken ist dieses seitlich gekippte Balkendiagramm. Wie man sieht, erzeugt NSDstat recht ansehnliche und vor allem übersichtliche Grafiken ohne 3D-Spielereien und ähnliche Ablenkungen. Wer aufwändigere Diagramme benötigt, kann die Tabellen mit den Ergebniswerten aus NSDstat in alle üblichen Textverarbeitungs- und Präsentationsprogramme exportieren, so dass die Analyseergebnisse dort zur Grafikerstellung verwendet werden können.

Soweit ein erster Einblick in eine der Grundfunktionen von NSDstat. Wie man sieht, ist die Bedienung der deutschsprachigen Benutzeroberfläche relativ einfach, so dass auch Einsteiger sich im Programm zurechtfinden können. Die Ausgabe der Analyseergebnisse sowie die Grafiken sind nicht spektakulär, sondern betont nüchtern-sachlich gehalten, womit sich das Programm angenehm von einigen der auf grafische Spielereien setzenden Konkurrenten abhebt. Häufigkeitsverteilungen lassen sich mit weniger als fünf Mausklicks erstellen, tabellarisch und grafisch ausgeben sowie um zusätzliche Elemente wie Lagemaße und eine Spalte der kumulierten Werte erweitern, womit der Grundinformationsbedarf abgedeckt sein sollte.

Im zweiten Teil dieses Tutorials – welches vermutlich in ein bis zwei Wochen in diesem Blog erscheinen wird – werde ich mich der Erstellung wichtiger univariater Statistiken widmen – einschließlich der Lage- und Streuungsmaße sowie der Konfidenzintervalle.