Datenexploration

Datenexploration

Der Begriff "Explorative Datenanalyse" (EDA — exploratory data analysis) wurde bereits in den 1950iger Jahren von John W. Tukey geprägt. 

Im Gegensatz zur deduktiven "klassischen" Statistik (geprägt durch R. A. Fisher), die auf die Hypothesenprüfung experimenteller Daten zentriert war,  steht hier die (meist visuelle) Analyse eines Datensatzes ohne ein vorformuliertes statistisches Modell im Vordergrund. Das Finden neuer Modelle und Hypothesen soll so ermöglicht bzw. erleichtert werden.

Diese Hypothesen müssen dann an einem neuen Datensatz geprüft werden. Bei großen Datensätzen ist es sinnvoll, diese zufallsgesteuert in zwei oder mehr Teile zu zerlegen, um eine Teilstichprobe zur Datenexploration zu verwenden, die andere zur Hypothesenprüfung.

Tukeys EDA stand in enger Verbindung zur Entwicklung der Programmiersprache "S" für statistische Analysen an den berühmten Bell Laboratories. Heute als Open-Source-Projekt weiterentwickelt, ist "R" die lingua franca der Statistik. Mehrere R-Pakete wie lattice, grid, ggplot2, vcd und GGobi ermöglichen die schnelle und auch interaktive Entwicklung vieler unterschiedlicher Typen von Grafiken zur Datenvisualisierung.