Nettoyage, publication et ré-utilisation des données : une liste d’outils et de documentations
Friday, 23 August 2019
Nettoyer, enrichir et publier des données sont le quotidien de l’équipe Canadensys, ainsi que celui des curateurs, coordonnateurs, techniciens, bénévoles, étudiants… qui travaillent à numériser et publier les spécimens dans les collections biologiques, ou à collecter des données sur le terrain, ou encore à numériser des jeux de données/publications anciennes.
La tâche est parfois aisée, mais est bien plus souvent gigantesque, tout spécialement lorsque nous travaillons sur des données anciennes.
Fort heureusement, un vaste spectre d’outils et de documentation a été développé afin d’aider à travers les différentes étapes menant à la publication de données standardisées et de bonnes qualité. Voici donc une liste des outils et documents que nous utilisons généralement. Cette liste n’est aucunement exhaustive et devra probablement être mise à jour à plusieurs reprises dans les prochaines années, puisque le domaine de l’Informatique de la Biodiversité évolue très rapidement.
De manière intentionnelle, je ne parlerais pas des outils de gestion des données ici, en raison de la variété des besoins et des solutions. Cette discussion pourrait prendre un article au complet !
Cet article a été initialement pensé pour être le dépôt parfait pour le matériel développé pour une série d’atelier que nous avons organisés l’année dernière à Wolfville, Vancouver et Montréal. Mais tant qu’à publier ces ressources, pourquoi ne pas également lister les outils et documentations utiles ?
Pour commencer, vous pouvez trouver ici toutes les présentations, exercices et autres documents développés pour ces ateliers. Lors de ceux-ci, nous avons parlé de publication et nettoyage de données, nous avons joué avec certains des outils listés dans cet article, nous avons découverts les fonctionnalités du portail Canadensys, basé sur la plateforme ALA, ainsi que celles du portail GBIF, et nous avons finalement parlé de l’utilisation des données. N’hésitez pas à réutiliser/modifier ce matériel autant que vous le souhaitez !
Cette série d’ateliers à été co-subventionné par Canadensys et le programme CESP de GBIF, et le matériel est basé sur des ateliers précédemment développés par GBIF Spain et le Secrétariat GBIF.
Alors parlons de nettoyage de données, qui doit bien entendu être fait avant la publication des données (bien que vous découvrirez sans doute de nouvelles erreurs à corriger après la publication). Le nettoyage de données est, selon moi, intrinsèquement lié à l’amélioration/enrichissement de celles-ci, et les outils listés permettent les deux.
- Open Refine : c’est l’outil que j’utilise à chaque fois que je dois vérifier un jeu de données, et il rend ma vie tellement plus simple ! Pas une base de données, pas un tableur, mais quelque chose entre les deux permettant une visualisation et la correction de données à grande échelle. De nombreux tutoriels et documentations sont disponibles en ligne. Essayez le, et je suis pratiquement certaine que vous aller vous dire : « Mais pourquoi n’ai-je jamais entendu parler, ou utiliser, cet outil avant ? »
- Validateur de données GBIF : testez votre jeu de données avant de le publier via un IPT. Cet outil réplique le processus d’indexation par lequel votre jeu de données va passer après avoir été récupéré par GBIF. Le résultat vous indiquera si celui-ci est dans le bon format et quelles sont les problèmes rencontrés. Vous pouvez ensuite retourner dans Open Refine ou votre base de données source pour corriger ces erreurs !
- Outil de correspondance taxonomique de GBIF : outil très pratique pour vérifier la taxonomie, les erreurs d’écriture et connaitre le statut taxonomique de vos occurrences. Vous pouvez réimporter ces informations dans votre jeu de données via Open Refine
- APIs (ou interface de programmation) : Les APIs sont à la base de nombreux protocoles d’échange d’information sur l’Internet, sans même que vous vous en rendiez compte. Mais ce type de communication peut être utilisé pour récupérer différents types de données, comme des données géographiques ou taxonomiques par exemple. C’est un vaste monde mais n’hésitez pas à vérifier si une API est disponible sur les sites de référence que vous utilisez. Exemple : API de Vascan.
- Georeferencing hub (VertNet) : le géo-référencement est important, mais peut être complexe. Cette plateforme est une mine d’or pour les outils et la documentation à ce sujet !
La publication de données est facilitée par l’IPT, outil développé par GBIF afin de permettre la publication et la récupération des jeux de données.
Notre « Guide en 7 étapes pour publier vos données » est un excellent point de départ pour apprendre à utiliser l’IPT. Nous pouvons vous créer un compte sur notre IPT, ou vous pouvez jouer avec la version démo de l’IPT de GBIF.
Tout dépendant de votre système de gestion de données, vous pouvez décider de publier manuellement vos données, ou lier directement votre base de données SQL à notre IPT, permettant ainsi des publications automatiques de vos données, selon le calendrier de votre choix.
Documentation/Ressource sur l’IPT :
- Guide en 7 étapes pour publier vos données
- IPT de Canadensys
- Manuel de l’IPT
- IPT démo de GBIF
- DarwinCore Hour: démo en direct de l’IPT
- page Canadensys à propos de l’IPT
Vous n’avez pas de données à publier, mais vous adoreriez utiliser toutes ces données disponibles sur Canadensys, GBIF et toutes les autres plateformes de ce type à travers le monde ? Dans ce cas là, la manière de récupérer et d’utiliser efficacement ces données est très importante pour vous. Heureusement, plusieurs ressources ont été développées par la communauté d’agrégateurs et d’utilisateurs de données.
- Tutoriels Canadensys à propos du nouvel Explorateur (basé sur ALA)
- Site Internet de la Communauté des Living Atlases
- Tutoriels vidéo de la Communauté des Living Atlases
- Revue scientifique de GBIF pour 2019
- Biodiversity Informatics Training Curriculum
- Documentation du SPREP à propos de l’utilisation et la publication de données sur GBIF, plus spécifiquement orienté vers les données sur les espèces invasives
Labels: | , IPT, , Tutorial, Workshops |
---|