Datenvorbereitung - Datenbank
Die Datenvorbereitung ist meist der wichtigste Schritt und erfordert den größten Aufwand. Der Analyst muß sich mit den Daten vertraut machen, die Bedeutung einzelner Variablen und deren Kodierung mit dem Auftraggeber klären. Unterschiedliche Datenquellen müssen zusammengeführt werden, die Struktur der Daten geklärt und verstanden werden.
Gerade bei größeren, komplexeren Datenbeständen ist es meist sinnvoll, die Daten in eine Datenbank zu überführen, deren Struktur an den zu erwartenden Erfordernissen späterer statistischer Analysen ausgerichtet ist. Im Idealfall kann eine Datenbank erstellt werden, die der Kunde selbst erweitern kann und die spätere eigene Analysen durch den Kunden ermöglicht.
Datenbereinigung
Datenbereinigung (data cleaning, data cleansing) bedeutet, fehlerhafte, unvollständige oder doppelt erfasste Datensätze zu entdecken und, falls möglich, diese zu korrigieren bzw. zu entfernen.
Es gibt vielfältige Fehlerquellen, abhängig von der Art der Datenerfassung: z.B. Eingabefehler, Formatfehler beim Ein- oder Auslesen, Übertragungsfehler, fehlerhafte oder unvollständige Datenbeschreibungskataloge (data dictionaries).
Fehler können auftreten, wenn mehrere Datenquellen zusammengeführt werden müssen: "Record Matching", auch "Record Linking" genannt, ist eine teilweise recht aufwändige Suche nach Einheiten, wenn brauchbare, d.h. eineindeutige Kennungen (identifier) fehlen.
Datenvalidierung
Für jede einzelne Variable kann geprüft werden, ob der vorgegebene Wertebereich eingehalten wird und ob die Verteilung der Werte plausibel ist. Für Paare oder Gruppen von Variablen, die voneinander abhängig sind, kann geprüft werden, ob Ausprägungen einer Variablen in Abhängigkeit von einer anderen Variablen plausibel sind (Konsistenzprüfung; Suche nach mehrdimensionalen Ausreißerwerten).
Entsprechende Validierungsregeln müssen formuliert werden und können auf verschiedenen Stufen der Datenaufbereitung geprüft werden, z.B. als deklarative Integritätsregeln bereits bei Datenbankerstellung oder als Prüfung von Plausibilitätsregeln nach der Datenbankerstellung. Auf diese Weise können fehlerhaft erfasste Datenwerte gefunden und anschließend entweder ausgeschlossen oder korrigiert werden.
Datenselektion
Datenselektion — für experimentelle Daten ist sie strikt verboten, für automatisch erhobene Daten oder Daten aus Feldstudien oft ein äußerst notwendiger Schritt!
Es hat meist wenig Sinn, heterogene Daten aus unterschiedlichen Situationen durcheinander zu mischen und gemeinsam auszuwerten. Zum Beispiel bei Untersuchungen des Nutzerverhaltens von Softwareprogrammen oder Webseiten: sehr kurze Nutzungszeiten können schlicht einen irrtümlichen Programmaufruf (oder den irrtümlichen Besuch einer Website) bedeuten, im Gegensatz zu einer „echten“ Nutzung des Programms (oder der Internet-Seite).
Je nach Untersuchungsziel muss also selektiert werden, oder eine entsprechende Gruppierung der Daten vorgenommen werden.
Nachträgliche Selektion ist notwendig, wenn die Untersuchungseinheiten sich quasi selbst zur Aufnahme in die Datenbasis gewählt haben (Selbstselektion).
Datenexploration
Der Begriff "Explorative Datenanalyse" (EDA — exploratory data analysis) wurde bereits in den 1950iger Jahren von John W. Tukey geprägt.
Im Gegensatz zur deduktiven "klassischen" Statistik (geprägt durch R. A. Fisher), die auf die Hypothesenprüfung experimenteller Daten zentriert war, steht hier die (meist visuelle) Analyse eines Datensatzes ohne ein vorformuliertes statistisches Modell im Vordergrund. Das Finden neuer Modelle und Hypothesen soll so ermöglicht bzw. erleichtert werden.
Diese Hypothesen müssen dann an einem neuen Datensatz geprüft werden. Bei großen Datensätzen ist es sinnvoll, diese zufallsgesteuert in zwei oder mehr Teile zu zerlegen, um eine Teilstichprobe zur Datenexploration zu verwenden, die andere zur Hypothesenprüfung.
Tukeys EDA stand in enger Verbindung zur Entwicklung der Programmiersprache "S" für statistische Analysen an den berühmten Bell Laboratories. Heute als Open-Source-Projekt weiterentwickelt, ist "R" die lingua franca der Statistik. Mehrere R-Pakete wie lattice, grid, ggplot2, vcd und GGobi ermöglichen die schnelle und auch interaktive Entwicklung vieler unterschiedlicher Typen von Grafiken zur Datenvisualisierung.
Modellbildung
Die formale Modellbildung erfordert eine enge Zusammenarbeit zwischen Klienten und Datenanalysten bzw. Statistiker, da häufig eine große Zahl unterschiedlicher Modelle zu den Daten passen kann. Eine Modellauswahl rein aus statistischer Sicht ist so meist nicht möglich, Fingerspitzengefühl ist verlangt!
Ähnliches gilt auch für die Modelldiagnostik: diese ist notwendig, um (grobe) Fehler der Modellbildung aufzudecken. Trotzdem kann die "bestandene" Diagnostik eines Modells nur sehr wenig über die Tauglichkeit dieses Modells sagen; dies ändert sich erst, wenn ein Modell gegen spezifische Alternativmodelle geprüft wird.
Soll ein Modell zur Prädiktion verwendet werden, kann es auch sinnvoll sein, mehrere Modelle anzupassen und den Mittelwert der Modellvorhersagen zu verwenden.
Gute Möglichkeiten, vorhandenes Wissen in die Modellbildung einzubringen, bieten Bayessche Modelle, besonders hierarchische Mehrebenenanalysen (multilevel hierarchical modeling).
Visualisierung
Eine gelungene Visualisierung ermöglicht ein tiefes Verständnis der wesentlichen Ergebnisse der Datenanalyse.
Das Spektrum der Visualisierung reicht von automatisch produzierten, technisch anmutenden Abbildungen bis zu handgezeichneten, ästhetisch ansprechenden Zeichnungen; es reicht von statischen Abbildungen bis hin zu aufwendig konstruierten, dynamischen, interaktiv steuerbaren Abbildungen.
Wenn Kenntnisse der Wahrnehmungspsychologie, technische Fertigkeiten und ein "künstlerisches Auge" zusammenkommen, können Abbildungen entstehen, die es dem Betrachter leicht machen, wichtige Muster in den Daten zu erkennen.
Präsentation
In der Regel erhalten Sie einen ausführlichen schriftlichen Bericht über die geleistete Analyse in deutscher und/oder englischer Sprache. Abbildungen und Tabellen dienen der Visualisierung der Ergebnisse.
Natürlich ist auch eine Präsentation der Ergebnisse in Ihrem Hause möglich, mit der Gelegenheit zu Rückfragen und Diskussion. Dies führt häufig zu einem vertieften Verständnis.
Bei sehr großen Datenmengen ist es häufig sinnvoll, dem Klienten die Daten in Form einer Datenbank und individuellen Abfragemodulen weiterzugeben. Dies ermöglicht es Ihnen, neuere Daten hinzuzufügen, vorhandene Analysen auf den neuesten Stand zu bringen oder eigene Analysen durchzuführen.