Métadonnées
Introduction
Les métadonnées sont des données à propos de données. Elles peuvent être utilisées pour définir, structurer, gérer et découvrir de l’information. Dans le contexte d’un ensemble de données sur des spécimens, les métadonnées peuvent comprendre, par exemple, l’adresse de la collection, le nombre de spécimens, les groupes taxonomiques représentés, les noms et définitions des champs de l’ensemble, etc.
Les métadonnées ne sont pas différentes des « données normales » : ce qui constitue une donnée pour une personne sera souvent une métadonnée pour une autre. Par exemple, l’adresse d’une collection constitue une métadonnée pour un ensemble de données de spécimens mais une donnée pour une liste de collections. De bonnes métadonnées permettent aux utilisateurs de découvrir plus facilement des données et d’évaluer leur utilités pour différentes utilisations.
Standards de métadonnées
Les standards de données sont utilisés pour l’échange de métadonnées (utilisé en premier lieu dans les interactions de machine à machine). Dans la communauté de l’informatique de la biodiversité, les standards utilisés sont ceux-ci :
- Ecological Metadata Language (EML)
- Resource Description Framework (RDF)
- Open Archives Initiative Protocol for Metadata Harvesting (OAI-PMH)
Tous les standards sont exprimés en XML. Les jeux de données publiés via l’IPT expriment automatiquement leurs métadonnées en EML.
Enregistrement
Afin de permettre la découverte des données, un jeu de données ou une collection n’ont pas juste besoin de métadonnées, mais doivent également être enregistrés quelque part. Pour les collections, de tels index incluent :
- Index Herbariorum (IH)
- The Global Registry of Biodiversity Repositories (GRBio)
- Insect and Spider Collections of the World
Les collections enregistrées peuvent choisir un identifiant unique (e.g. MT), qui peut ensuite être référencé dans la littérature. Malheureusement, certains codes ne sont pas uniques à travers les disciplines ou les continents. C’est l’une des raisons pour lesquelles le Système Mondial d’Information sur la Biodiversité (GBIF), le Biodiversity Information Standards (TDWG) et le Jardin Botanique Royal d’Edinburgh ont développé le « Biodiversity Collection Index » (BCI). Dans le but de centraliser l’information dans un seul index, le BCI est désormais combiné à l’Index Herbariorium et le Registry of Biological Repository afin de former le Global Registry of Biodiversity Repositories (GRBio)
Global Registry of Biodiversity Repositories (GRBio)
Le Global Registry of Biodiversity Repositories (GRBio) est un index international des collections biologiques. Les informations (métadonnées) de chaque collection ont été collectées depuis les dépôts existants (BCI, IH) et les utilisateurs peuvent mettre à jour ou ajouter de l’information sur le site Internet du GRBio. Les identifiants unique LSID associés à chaque collection par le BCI ne sont plus supportés et le triplet DarwinCore institutionCode:collectionCode:catalogNumber est désormais utilisé pour identifier de manière unique un enregistrement.
GBIF Registry
En 2009, le GBIF a développé une interface Web, le Global Biodiversity Resources Discovery System (GBRDS), permettant l’enregistrement automatique des jeux de données publiés. Cette interface a évolué en une API permettant de rechercher les métadonnées durant le processus de publication. Les jeux de données publiés via l’IPT de Canadensys seront enregistrés automatiquement auprès du GBIF.
Metadonnées et Canadensys
Toutes les collections publiées via Canadensys sont enregistrées auprès du Global Registry of Biodiversity Repositories (GRBio) (via Index Herbariorum et le Registre Mondial des Collections d’Insectes et d’Araignées). Nous utilisons les données du GRBio afin de compléter les métadonnées des collections. Nous suggérons aux curateurs de vérifier les informations sur leurs collections sur le GRBio afin de maintenir celles-ci à jour.