Data scrubbing & Data cleansing

Differences between Data scrubbing & Data cleansing

Scrubbing - Lavage

Data scrubbing

Data scrubbing is an error correction technique that uses a background task to periodically inspect main memory or storage for errors, then corrects detected errors using redundant data in the form of different checksums or copies of data.
Data scrubbing reduces the likelihood that single correctable errors will accumulate, leading to reduced risks of uncorrectable errors.

Lavage des données

Le Lavage des données est une technique de correction d’erreurs qui utilise une tâche en arrière-plan pour inspecter périodiquement la mémoire principale ou le stockage à la recherche d’erreurs, puis corrige les erreurs détectées à l’aide de données redondantes sous la forme de différentes sommes de contrôle ou de copies de données.
Le Lavage des données réduit la probabilité que des erreurs uniques corrigibles s’accumulent, ce qui réduit les risques d’erreurs non corrigibles.

Cleansing - Nettoyage

Data cleansing

Data cleansing or data cleaning is the process of detecting and correcting (or removing) corrupt or inaccurate records from a record set, table, or database and refers to identifying incomplete, incorrect, inaccurate or irrelevant parts of the data and then replacing, modifying, or deleting the “dirty” or “coarse” data.
Data cleansing may be performed interactively with data wrangling tools, or as batch processing through scripting or a data quality firewall.

Nettoyage des données

Le nettoyage des données est le processus de détection et de correction (ou de suppression) des enregistrements corrompus ou inexacts d’un ensemble d’enregistrements, d’une table ou d’une base de données et fait référence à l’identification des parties incomplètes, incorrectes, inexactes ou non pertinentes des données, puis au remplacement, à la modification, ou supprimer les données “sales” ou “grossières”.
Le nettoyage des données peut être effectué de manière interactive avec des outils de traitement des données, ou sous forme de traitement par lots via des scripts ou un pare-feu de qualité des données.

Dirty and Coarse Data ?

Dirty data also known as rogue data, are inaccurate, incomplete or inconsistent data, especially in a computer system or database, they can contain such mistakes as spelling or punctuation errors, incorrect data associated with a field, incomplete or outdated data, or even data that has been duplicated in the database.
They can be cleaned through a process known as data cleansing

Exemple de logs

Log de Ceph :

B2442      2023-10-02 05:07:09  207   INFORMATIONAL  A scrub-vdisk job completed. No errors were found. (vdisk: N9-PHY5, SN: 001122334455667788000000aabbccdd)

Documentation

https://en.wikipedia.org/wiki/Data_scrubbing
https://en.wikipedia.org/wiki/Data_cleansing
https://en.wikipedia.org/wiki/Dirty_data

Remerciements

Martin B.

Merci à Martin B.


> Partager <