Datenselektion — für experimentelle Daten ist sie strikt verboten, für automatisch erhobene Daten oder Daten aus Feldstudien oft ein äußerst notwendiger Schritt!
Es hat meist wenig Sinn, heterogene Daten aus unterschiedlichen Situationen durcheinander zu mischen und gemeinsam auszuwerten. Zum Beispiel bei Untersuchungen des Nutzerverhaltens von Softwareprogrammen oder Webseiten: sehr kurze Nutzungszeiten können schlicht einen irrtümlichen Programmaufruf (oder den irrtümlichen Besuch einer Website) bedeuten, im Gegensatz zu einer „echten“ Nutzung des Programms (oder der Internet-Seite).
Je nach Untersuchungsziel muss also selektiert werden, oder eine entsprechende Gruppierung der Daten vorgenommen werden.
Nachträgliche Selektion ist notwendig, wenn die Untersuchungseinheiten sich quasi selbst zur Aufnahme in die Datenbasis gewählt haben (Selbstselektion).