Datenbereinigung

Datenbereinigung

Datenbereinigung (data cleaning, data cleansing) bedeutet, fehlerhafte, unvollständige oder doppelt erfasste Datensätze zu entdecken und, falls möglich, diese zu korrigieren bzw. zu entfernen.

Es gibt vielfältige Fehlerquellen, abhängig von der Art der Datenerfassung: z.B. Eingabefehler, Formatfehler beim Ein- oder Auslesen, Übertragungsfehler, fehlerhafte oder unvollständige Datenbeschreibungskataloge (data dictionaries).

Fehler können auftreten, wenn mehrere Datenquellen zusammengeführt werden müssen: "Record Matching", auch "Record Linking" genannt, ist eine teilweise recht aufwändige Suche nach Einheiten, wenn brauchbare, d.h. eineindeutige Kennungen (identifier)  fehlen.