Datenvalidierung

Datenvalidierung

Für jede einzelne Variable kann geprüft werden, ob der vorgegebene Wertebereich eingehalten wird und ob die Verteilung der Werte plausibel ist. Für Paare oder Gruppen von Variablen, die voneinander abhängig sind, kann geprüft werden, ob Ausprägungen einer Variablen in Abhängigkeit von einer anderen Variablen plausibel sind (Konsistenzprüfung; Suche nach mehrdimensionalen Ausreißerwerten).

Entsprechende Validierungsregeln müssen formuliert werden und können auf verschiedenen Stufen der Datenaufbereitung geprüft werden, z.B. als deklarative Integritätsregeln bereits bei Datenbankerstellung oder als Prüfung von Plausibilitätsregeln nach der Datenbankerstellung. Auf diese Weise können fehlerhaft erfasste Datenwerte gefunden und anschließend entweder ausgeschlossen oder korrigiert werden.