Differences between Data scrubbing & Data cleansing
Scrubbing - Lavage
Data scrubbing
Data scrubbing is an error correction technique that uses a background task to periodically inspect main memory or storage for errors, then corrects detected errors using redundant data in the form of different checksums or copies of data.
Data scrubbing reduces the likelihood that single correctable errors will accumulate, leading to reduced risks of uncorrectable errors.
Lavage des données
Le Lavage des données est une technique de correction d’erreurs qui utilise une tâche en arrière-plan pour inspecter périodiquement la mémoire principale ou le stockage à la recherche d’erreurs, puis corrige les erreurs détectées à l’aide de données redondantes sous la forme de différentes sommes de contrôle ou de copies de données.
Le Lavage des données réduit la probabilité que des erreurs uniques corrigibles s’accumulent, ce qui réduit les risques d’erreurs non corrigibles.
Cleansing - Nettoyage
Data cleansing
Data cleansing or data cleaning is the process of detecting and correcting (or removing) corrupt or inaccurate records from a record set, table, or database and refers to identifying incomplete, incorrect, inaccurate or irrelevant parts of the data and then replacing, modifying, or deleting the “dirty” or “coarse” data.
Data cleansing may be performed interactively with data wrangling tools, or as batch processing through scripting or a data quality firewall.
Nettoyage des données
Le nettoyage des données est le processus de détection et de correction (ou de suppression) des enregistrements corrompus ou inexacts d’un ensemble d’enregistrements, d’une table ou d’une base de données et fait référence à l’identification des parties incomplètes, incorrectes, inexactes ou non pertinentes des données, puis au remplacement, à la modification, ou supprimer les données “sales” ou “grossières”.
Le nettoyage des données peut être effectué de manière interactive avec des outils de traitement des données, ou sous forme de traitement par lots via des scripts ou un pare-feu de qualité des données.
Dirty and Coarse Data ?
Dirty data also known as rogue data, are inaccurate, incomplete or inconsistent data, especially in a computer system or database, they can contain such mistakes as spelling or punctuation errors, incorrect data associated with a field, incomplete or outdated data, or even data that has been duplicated in the database.
They can be cleaned through a process known as data cleansing
Exemple de logs
Log de Ceph :
B2442 2023-10-02 05:07:09 207 INFORMATIONAL A scrub-vdisk job completed. No errors were found. (vdisk: N9-PHY5, SN: 001122334455667788000000aabbccdd) |
Documentation
https://en.wikipedia.org/wiki/Data_scrubbing
https://en.wikipedia.org/wiki/Data_cleansing
https://en.wikipedia.org/wiki/Dirty_data
Martin B.
Merci à Martin B.