Guide en 10 étapes pour gérer des images associées à vos données de biodiversité

Introduction

La gestion des images numériques est une tâche nécessitant diverses aptitudes spécialisées qui devient de plus en plus importante pour la gestion des collections.

Le guide en 10 étapes présenté ici a pour objectif de fournir une introduction aux procédures de bases pour organiser, conserver et distribuer des images numériques. Un
guide plus complet a été publié par nos collègues à iDigBio.

1. Établir un protocole de sauvegarde pour conserver les doubles de vos images de manière sécuritaire et sécurisée

Nous vous recommandons de conserver au moins deux copies de vos images à différents endroits : une copie sur place pour faciliter l’extraction, et une autre ailleurs pour récupérer les données dans le cas d’une perte catastrophique.
Rappelez-vous que des sauvegardes en double, ou « backups », doivent être régulièrement vérifiées pour s’assurer qu’elles peuvent être récupérées. Une sauvegarde est inutile si on n’est pas certain de pouvoir effectivement récupérer les données lorsque nécessaire.

2. Établir un protocole pour (re)nommer vos fichiers

Vous devriez vous assurer que chaque nom de fichier est unique à travers toute votre collection, même si ils ont été placés dans des dossiers différents. Vous ne pouvez pas savoir d’avance si et quand un technicien en informatique décidera un jour de détruire votre architecture de dossiers emboîtés pour l’entretien ou la réparation de votre ordinateur.
Dans la plupart des systèmes d’exploitation, un nom de fichier peut contenir jusqu’à 255 caractères, constitués de lettres, chiffres et « underscore ». Tous les systèmes ne sont pas sensibles à la casse, nous recommandons donc que toutes les lettres des noms de fichier soient en majuscules (diminuant les risques de confondre le chiffre 1 et la lettre l), OU que toutes les lettres des noms de fichier soient en minuscules (diminuant les risques de confondre le chiffre 0 et la lettre O). Les noms de fichier contenant du texte non-ASCII (barre oblique, parenthèses, guillemets…) devraient être évités car certains de ces caractères ont une signification particulière pour certains systèmes d’opération.

Exemple 1 : Vous pouvez nommer chaque image avec un identifiant unique généré à la main ou directement par la base de données. Bien que cette technique soit facile, elle pose quelque risque de duplication.

Exemple 2 : Vous pouvez nommer chaque image avec un identifiant unique composé d’une succession aléatoire de chiffres et de lettres générée par un ordinateur tel qu’un UUID (Universally Unique Identifier). Cette technique n’est pas facile à adopter mais elle élimine tout risque de duplication.

Exemple 3 : Vous pouvez nommer chaque image avec le code d’accession du musée, auquel on ajoute un suffixe de chiffres ou de lettres ou d’un code généré par une machine (e.g. MT0011212_ABVG1BH6). Ce système assure la récupération et l’unicité des données.

Essayez de réfléchir d’avance à votre protocole de dénomination des fichiers si vous avez ou allez avoir plusieurs catégories d’images et si vous souhaitez encoder ces métadonnées dans le nom du fichier. Par exemple, on peut vouloir indiquer qu’une image représente un spécimen séché, sa disposition sur le terrain avant sa récolte, ou encore les carnet de notes de terrain.

3. Choisir un format de fichier approprié pour vos images

Vous devriez garder un format non-breveté pour vos archives ou sauvegardes (e.g. DNG, RAW) avec la résolution initiale.

Examinez par exemple scantips pour connaître les formats de fichiers d’image les plus communs (e.g. jpg, jpeg2000, DNG, tiff, raw …).

4. Convertir les images au format déterminé et approprié pour le partage

Si votre archive ou fichier source est trop volumineux pour le partager, utilisez un convertisseur et écrivez des scripts de conversions automatisées en grande quantité. Plusieurs convertisseurs sont disponibles gratuitement en ligne, tels que, mais pas uniquement imagemagick utilisant plus de 200 formats différents, FreePhotoConverter for jpg, bmp, gif, png, tiff, FastStone qui supporte JPEG, BMP, GIF, PNG, TIFF et JPEG2000, ImageBatch pour les formats JPEG, PNG, GIF et BMP.

5. Disposer vos image dans une ressource accessible au public

Vos images devront probablement être accessible au public via un URL, soit sur un site public d’hébergement de fichiers, ou sur un serveur accessible au public. Le site ou le serveur doivent être stables et actifs en tout temps puisque les aggrégateurs (comme GBIF et Canadensys) ainsi que les moteurs de recherche pourront aller chercher vos images pour les affichées sur les pages internet en temps réel.

Site d’hébergement de fichiers

À titre d’exemple, le the Cercle des mycologues de Montréal Fungarium (CMMF) dispose ses images dans un compte DropBox.

Exemple : https://dl.dropboxusercontent.com/u/10639207/cmmf-photos/3091.jpg

DropBox Pro peut stocker jusqu’à 1 To (1000Go) pour CA$11/mois et DropBox Entreprises offre de l’espace illimité pour CA$17/utilisateur/mois avec un minimum de 5 utilisateurs (tel qu’indiqué lors de la publication de ce texte). D’autres sites d’hébergement dans le nuage fonctionnent tout aussi bien, tels que, entre autres, Google Drive, Windows OneDrive, Carbonite, et Oracle Cloud.

Serveur institutionnel

Par exemple, les bénévoles de l’Herbier Marie-Victorin (MT) prennent des photographies des spécimens avec un appareil photo relié au logiciel LightRoom. Les images sont sauvegardées sur le disque dans le format RAW en tant qu’archives, et ensuite converties en lots en JPG puis placées sur un serveur accessible au public. Le serveur est maintenu par l’équipe de Canadensys sur les infrastructures informatiques de l’Université de Montréal.

Exemple : http://media.canadensys.net/mt-specimens/large/MT00163567.jpg

6. Décider quelle licence(s) d’utilisation sera attribuée aux images et, le cas échéant, qui détient les droits (rights Holder)

Vous voudrez peut-être attribuer des droits d’utilisation différents à vos données brutes de biodiversité et à vos fichiers multimédia. Cependant, une licence lisible par ordinateur devrait être clairement attribuée à chaque type de données.

Alors que nous recommandons que CC0 soit utilisé pour les données brutes de biodiversité (lisez ceci pour savoir pourquoi), Canadensys recommande l’attribution de l’une de ces 3 licences Creative Commons à vos fichiers multimédia : CC0, CC-BY, ou CC-BY-NC.

CC0 lève tous droits et place la ressource dans le domaine public de manière à ce que tout personne puisse réutiliser , améliorer, construire autour du travail quelque soit l’objectif, sans restriction.

BY correspond à l’attribution de la ressource. Cette licence permet à d’autres de redistribuer et de modifier le travail, y compris de manière commerciale, mais ils sont légalement obligés de vous citer.

NC signifie Non Commercial, ce qui est distinct de « Sans profit ». Ainsi, les photos ne peuvent pas être légalement utilisées pour des livres d’enseignement de la biologie, ou encore pour la publicité d’une conférence, sans le consentement explicite du créateur préalable (ce qui est impossible s’il/elle n’est plus joignable).

Canadensys déconseille l’emploi des clauses SA et ND des licences Creative Commons:

SA signifie Share-Alike ou Partage-à-l’identique. Similaire au Copyleft, cette licence impose qu’une compilation d’images soit publiée avec les mêmes restrictions que celles utilisées pour l’image utilisant la licence SA. Bien-sûr, cela réduit considérablement les possibilités de réutilisation de l’élément à cause d’incompatibilité entre licences.

ND signifie Non Dérivé. Canadensys ne peut pas utiliser de matériel avec cette license car elle empêche le redimensionnement de l’image. L’image ne sera pas affichée sur l’Explorateur : seul le lien URL redirigeant vers l’image sera disponible.

7. Faire la liste des termes de métadonnées nécessaires

Qui a pris la photo ? Quand ? Puis-je la réutilisée ? Les réponses à ces questions et à d’autres seront fournies dans les métadonnées de l’image. L’extension Audubon Media Description, utilisée par iDigBio, propose de manière détaillée de nombreux éléments de métadonnées possibles pour des images de biodiversité. Canadensys a préféré l’utilisation de l’extension Simple Multimedia du Darwin Core. Cette extension permet la représentation des métadonnées essentielles sans être exagérément exhaustif et est facilement associée aux enregistrements de taxons et d’occurrences.

La première étape pour une bonne gestion de multimédia est la sélection des termes provenant de ces extensions qui seront adaptés aux besoins de vos fichiers multimédias. Vous pouvez notamment lire notre interprétation des termes de l’extension Simple Multimedia et suivre nos recommandations pour leur utilisation.

8. Remodeler votre base de données

Vous aller probablement devoir adapter votre base de données pour permettre l’ajout des images associées et leurs métadonnées (voir le point 7) et pour lier vos identifiants entre eux (imageID et occurenceID par exemple).

9. Ajuster votre script d’export de données pour produire un fichier texte de vos données multimedia

Visitez notre Guide en 7 étapes pour un rappel de la procédure de publication des données de biodiversité sur notre IPT (Integrated Publishing Toolkit). L’export de vos données multimédia suivra un processus très similaire. Nous ne fournirons pas d’instructions spécifiques ici du fait de la diversité de logiciels de bases de données utilisés par les différentes collections. Si vous avez besoin d’assistance avec le design de votre base de données ou l’export des données, contactez-nous.

10. Mapper vos termes de rubriques avec l’extension

Une fois que vous aurez téléchargé et « mappé » (i.e. fait correspondre vos termes de rubriques avec les standards Darwin Core) votre jeu de données principal dans l’IPT (tel que décrit dans le Guide en 7 étapes), vous pourrez alors téléchargé votre jeu de données multimédia et « mappé » vos termes avec ceux de l’extension Simple Multimedia.

En quoi la publication de vos images est importante à la science de la biodiversité?

  • Images associées à des données d’observation
    • Vérifier l’identification de l’espèce en l’absence de preuve matérielle
    • Fournir de l’information sur l’habitat et la communauté de l’individu
  • Images associées à des données de spécimen
    • Capturer l’apparence du spécimen avant toute détérioration potentielle
    • Sécuriser ce patrimoine pour la postérité (quoi qu’il advienne à l’objet physique)
    • Augmenter l’accès des collections à toute la planète
    • Fournir l’information originelle telle qu’inscrite sur l’étiquette
    • Alimenter les projets de sciences citoyennes et ainsi accélérer la numérisation des données
  • Images de spécimens avant leur récolte
    • Faciliter l’identification du spécimen à partir d’images de parties de l’organisme avant sa manipulation et immobilisation
    • Fournir des informations taxonomiques et écologiques
  • Images de carnets de notes associées aux données d’observations ou de spécimens
    • Conserver les annotations d’un récolteur dans la langue originelle
  • Images associées avec un taxon d’un inventaire ou liste d’espèces (checklist)
    • Pouvoir facilement référer au spécimen type
    • Mettre en évidence les caractères spécifiques nécessaires à l’identification du taxon

Davantage d’information sur la gestion des multimédias

Citation

Comme tout le contenu de ce site, ce guide est publié sous CC-BY. La meilleure manière de le citer est la suivante :

Shorthouse, D. & B. Rivière. 2014. 10-step guide to managing images with your biodiversity data. Canadensys. https://community.canadensys.net/publication/multimedia-publication-guide