Nettoyage des données

Introduction

Extrait du livre de Chapman, A.D. GBIF, 2005. Principles and methods of data cleaning:

Le nettoyage des données est un aspect essentiel de la chaîne de gestion de l’information, tel que mentionné dans le document associé, Principles of Data Quality (Chapman 2005a). Comme ce document le souligne, la prévention des erreurs est, de loin, préférable à leur détection et leur correction ultérieure, sans compter plus efficace et moins coûteuse. Par contre, quelle que soit l’efficacité du processus d’entrée des données, il est inévitable que des erreurs apparaîssent. La détection des erreurs, leur vérification et leur nettoyage ont donc un rôle essentiel à jouer, particulièrement avec des données historiques, comme, par exemple, les données de musées et d’herbiers récoltées au cours des 300 dernières années. C’est pourquoi il est important que les politiques de gestion des données des organisations comprennent à la fois des mesures de prévention d’erreurs et de nettoyage des données.

Un bénéfice important du nettoyage des données est d’identifier les circonstances à l’origine d’erreurs répétées, ce qui permet d’améliorer constamment le processus d’entrée de données.

Outils

  • OpenRefine, un outil permettant de retravailler des données désordonnées, les nettoyer, les passer d’un format vers un autre et étendu par un service web (tels que ).
  • Paquets R pour le nettoyage des données de biodiversité : scrubr, biogeo, taxize, et rgeospatialquality, par example.
  • Outils de Canadensys, conversion des dates and coordonnées geographiques.

Documents