Die Datenvorbereitung ist meist der wichtigste Schritt und erfordert den größten Aufwand. Der Analyst muß sich mit den Daten vertraut machen, die Bedeutung einzelner Variablen und deren Kodierung mit dem Auftraggeber klären. Unterschiedliche Datenquellen müssen zusammengeführt werden, die Struktur der Daten geklärt und verstanden werden.
Gerade bei größeren, komplexeren Datenbeständen ist es meist sinnvoll, die Daten in eine Datenbank zu überführen, deren Struktur an den zu erwartenden Erfordernissen späterer statistischer Analysen ausgerichtet ist. Im Idealfall kann eine Datenbank erstellt werden, die der Kunde selbst erweitern kann und die spätere eigene Analysen durch den Kunden ermöglicht.