Guide en 7 étapes pour publier vos données

Introduction

Ce guide explique comment publier vos données de biodiversité auprès du SMIB/GBIF, et du monde entier, via le dépôt Canadensys. Ce n’est pas la seule méthode que vous pouvez utiliser pour publier vos données, mais nous pensons que c’est, à l’heure actuelle, la plus pratique pour les collections et organisations Canadiennes.

Notre dépôt est propulsé par l’Outil de Publication Intégré du SMIB/GBIF (IPT) et maintenu par nos soins, ce qui vous permet de télécharger, standardiser, publier et enregistrer vos données en 7 étapes, sans le soucis d’installer et maintenir un programme. Les données sont publiées au nom de votre organisation et tout ceci est parfaitement gratuit.

data-publication-guide-schema

Pour des méthodes alternatives de publication de données, suivez les guides du SMIB/GBIF suivants :

Conditions

Nous nous soucions de vos données et nous voulons juste nous assurer qu’il en va de même pour vous. Afin de publier vos données à l’aide du dépôt Canadensys vous devez répondre aux critères suivants :

  • Vous êtes associés à une collection ou une organisation Canadienne.
  • Vous publiez des jeux de données de spécimens ou d’observations, une checklist taxonomique, un jeu de données d’échantillonnage ou simplement des métadonnées (en d’autres mots, l’un des 4 types de jeu de données supportées par IPT).
  • Vous détenez les droits pour publier ces données.
  • Vous avez la volonté de maintenir ce jeu de données et d’améliorer sa qualité lorsque possible.
  • Vous avez la volonté de fournir des métadonnées les plus complètes possibles, afin que les utilisateurs puissent aisément comprendre de quoi votre jeu de données traite.
  • Vous publiez les données sur le domaine public, ainsi les usagers pourront réellement les utiliser. Nous vous recommandons vivement la publication sous CC0 (voilà pourquoi).

1. Création de votre ressource sur IPT

Le dépôt Canadensys est propulsé par l’Outil de Publication Intégré du SMIB/GBIF (IPT), une application web libre de droit développée par GBIF et personalisée par Canadensys. Nous l’utilisons pour publier et enregistrer tous nos jeux de données. Afin de pouvoir créer et gérer votre propre jeu de données (appelé « ressource »), vous aurez besoin d’un compte utilisateur. Contactez nous afin que nous vous le créions.

Une fois votre compte créé, connectez-vous en haut de cette page. Cliquez sur le nouvel onglet gérer les ressources afin d’accéder à votre page de gestion. Cette page affiche toutes les ressources que vous gérez. Elle vous apparaîtra donc vide lors de la première utilisation. Vous pouvez créer une nouvelle ressource au bas de la page. Suivez le manuel de IPT pour de plus amples instructions.

Attention : veuillez utiliser le format suivant (en minuscule) pour le nom de votre ressource: codedelacollection-typededonnées (e.g. acad-specimens ou wildlife-sightings-observations). Cela permet d’identifier de manière unique votre ressource et d’y accéder, et cela ne peut être modifié ultérieurement ! A des fins de test, veuillez utiliser codedelacollection-test (e.g. ubc-test).

Dès que votre ressource est créée, vous pourrez voir une vue d’ensemble de votre ressource, qui est actuellement vide.

data-publication-guide-empty-resource

2. Exportation

La manière la plus simple pour ajouter vos données sur IPT est d’exporter celles-ci de votre base de données sous forme de fichier texte délimité (e.g. .txt, .tab, .csv). La plupart des bases de données offrent cette option. Utilisez le format d’encodage des caractères UTF-8 lors de votre exportation (et non pas ASCII, Macintosh ou Windows ANSI), afin d’éviter la mauvaise interprétation des caractères accentués (e.g. é, à, ü, î ). Si l’option vous est offerte, choisissez d’inclure la ligne d’en-tête dans votre fichier d’exportation (la première ligne avec les noms des champs), puisque cette information sera utile par la suite.

3. Téléchargement

Télécharger votre fichier source sur IPT est une étape facile : allez sur la vue d’ensemble de votre ressource > Source de Données puis cliquez sur Choisissez un fichier. Vous devriez songer à compresser/ziper votre fichier source afin d’améliorer la vitesse de téléchargement des larges fichiers. Le IPT décompressera automatiquement votre fichier. Suivre le manuel IPT pour de plus amples informations (incluant le téléchargement de fichiers source multiples, ou directement via la connection à une base de données).

Une fois que votre fichier source a été correctement téléchargé, une page de détails apparaît (Voir l’exemple de capture d’écran dans le manuel IPT), affichant comment votre fichier a été interprété par le IPT (nombres de colonnes, lignes, lignes d’en-tête, encodage des caractères, délimiteurs de texte, etc.). Cliquez sur le bouton aperçu pour vérifier l’exactitude des informations, puis cliquez sur enregistrer.

4. Conversion Darwin Core

Les données de biodiversité sont publiées sous le standard Darwin Core. Cela inclue une liste de termes et permet que vos données soient comprises et utilisées par tout le monde. Cela permet également à un agrégateur comme GBIF de combiner vos données avec d’autres données, tel qu’ils le font sur leur portail de données.

La conversion Darwin Core est l’étape qui vous permet de lier les champs de votre fichier source aux termes Darwin Core appropriés. C’est l’étape la plus difficile dans le processus de publication de vos données, et ce pour deux raisons : 1) la liste des termes Darwin peut être effrayante, et il peut être compliqué de choisir les termes appropriés à votre jeu de données, et 2) à l’heure actuelle, l’IPT ne permettant que des conversions une-à-une des champs, la facilité de la conversion va dépendre de la structure de votre jeu de données, et de la possibilité de l’exporter dans le format le plus proche des standards Darwin Core.

C’est pour ces raisons que nous sommes là ! Contactez nous afin d’organiser un appel téléphonique ou un appel Skype, afin de vous guider à travers les étapes, vérifier votre conversion Darwin Core, suggérer l’utilisation de termes et vous aider à répéter les étapes 2 à 4 jusqu’à la meilleure conversion possible.

Vous trouverez plus d’informations à propos de la conversion Darwin Core dans le manuel IPT (incluant les types de noyaux, les extensions, la conversion automatique, les valeurs par défaut, les traductions de valeurs, etc.) et dans l’introduction au standard Darwin Core sur notre site web (incluant une liste des termes utilisés pour d’autres ensembles de données dans le réseau Canadensys). Nous collaborons également à la documentation sur Darwin Core et aux recommandations pour les herbiers (Apple Core), incluant une liste des termes recommandés lors de la publication.

5. Ajout de métadonnées

Si l’on compare les données à des briques LEGO, alors les métadonnées sont la belle boîte et le feuillet d’instructions. Elles permettent à l’usager de découvrir votre jeu de données et ainsi de déterminer si celui-ci est pertinent pour ses travaux. Il est donc important de prendre un peu de temps pour les compléter.

Allez sur la vue d’ensemble de votre ressource > Metadonnées et cliquez sur Modifier pour ouvrir l’éditeur de métadonnées. Contactez nous afin d’enregistrer votre institution (si ce n’est déjà fait) auprès du GBIF, afin de lier votre ressource à votre institution dans les métadonnées. Nous vous informerons lorsque votre jeu de données sera disponible sur le portail de données du GBIF.

Toutes les informations que vous fournirez ici seront directement visibles sur la page de votre ressource et associées à vos données lors de la publication. Les métadonnées sont exprimées en EML, qui est un standard de GBIF, et peuvent également être téléchargées sous forme de fichier RTF (Rich Text Format). Ce dernier peut servir d’ébauche de manuscript décrivant votre jeu de données (un « Article de Données« ), qui peut être soumis à l’un des journaux libres d’accès et révisés par les pairs de Pensoft, tels que Phytokeys, Zookeys, Biorisk, Neobiota or Nature Conservation.

Suivez le manuel IPT pour des instructions détaillées de l’éditeur de métadonnées, et utilisez l’un des jeux de données déjà publiés comme exemple (e.g. exemple de collection, exemple de checklist). De plus amples informations à propos des métadonnées sont disponibles sur notre site web.

6. Publication

Tout est maintenant prêt pour la publication ! Rendez-vous sur la vue d’ensemble de votre ressource > Versions publiées et cliquez sur Publier. Le IPT va transformer vos données en Darwin Core, les combiner avec les métadonnées et les empaqueter dans un fichier compressé appelé une « Archive Darwin Core« . Consultez le manuel IPT pour plus de détails.

En retournant sur la vue d’ensemble de votre ressource > Versions publiées, vous pouvez voir les détails de votre premier jeu de données publié, incluant la date de publication et la version. Votre jeu de données étant publié de manière privée, la dernière chose qu’il vous reste à faire est de cliquer sur Visibilité de la ressource > Public (voir le manuel IPT) afin de le rendre disponible à tous. Attention : veuillez, s.v.p, ne pas rendre publique une version test.

Félicitations, vous venez de publier votre premier jeu de données aux yeux du monde ! Il est maintenant listé sur la page d’accueil du dépôt et vous pouvez le partager et en faire un lien via : http://dataset.canadensys.net/dataset-shortname. C’est le moment opportun pour prévenir les réseaux régionaux ou thématiques dont vous faites partie, comme VertNet, le Consortium of Northeastern Herbaria ou la Société d’Entomologie du Canada.

Votre jeu de données publié est une vue statique de vos données qui ne changera pas tant que vous ne téléchargerez pas une version mise à jour de votre fichier source et cliquiez de nouveau sur Publier. Les avantages sont que vos données sont toujours disponibles, ne requièrent pas de connection directe à votre base de données et peuvent-être aisément partagées (e.g. vous pouvez envoyer par courriel l’Archive Darwin Core à un(e) collègue). Cela vous permet également de mieux contrôler le processus de publication : version 1, version 2, etc. et les usagers sont informés de quand date la ressource et des différences entre les versions (ajout de données, corrections d’erreurs, etc).

7. Enregistrement auprès de GBIF

Même si votre jeu de données est maintenant disponible à tous, il peut s’avérer difficile pour un usager de le découvrir. C’est pourquoi nous vous recommandons de l’enregistrer auprès du Système Mondial d’Information sur la Biodiversité (SMIB/GBIF). Cela permet à vos données de devenir disponibles à une audience internationale via le portail de données de GBIF et cela assure l’attribution complète des crédits à votre institution. En vous enregistrant, vous acceptez les accords de partage de données du GBIF.

Sur la page de vue d’ensemble de votre ressource, cliquer sur Visibilité de la ressource > Enregistrement (voir le manuel de l’IPT) afin d’enregistrer votre jeu de données auprès du GBIF. Cela leur permettra d’indexer votre ressource à leur portail, à partir duquel elle sera facilement accessible à tous.

Citation

Comme tout le contenu de ce site, ce guide est publié sous CC-BY. La meilleure manière de le citer est la suivante :

Desmet, P. & C. Sinou. 2012. 7-step guide to data publication. Canadensys. http://www.canadensys.net/data-publication-guide