Compte rendu IV: Métadonnées

Animé par : Expert international en Open Data
La réunion s’est ouverte par un rappel de la raison et du processus de création de décret open data ainsi que de son contenu.

Métadonnées :

Quand on parle de métadonnées, on entend parler des données à propos des données. On distingue 3 grandes familles de métadonnées : métadonnées descriptives, structurelles et administratives.

Les métadonnées descriptives permettent de faciliter la recherche des données et l’identification d’un jeu de données, à travers le titre, la description, l’auteur, les mots clés, la licence etc.

Les métadonnées structurelles c’est ce qui décrit les données elles-mêmes c’est-à-dire les champs dans les jeux de données. Ça permet de comprendre les données et facilite le croisement des jeux de données.

Les métadonnées administratives permettent de faciliter la maintenance des jeux de données sur la plateforme et l’indexation à la recherche des jeux de données et ça répond essentiellement à ces questions : qui a produit les jeux de données ? Quelle est la fréquence de production ? Comment les données ont été collectées ?

Dans notre traitement du sujet, on ne va pas séparer les données descriptives des données administratives.

Les vocabulaires de base pour les métadonnées descriptives et administratives les plus soft sont : le DECAT qui est un vocabulaire de base permettant la description des jeux de données et qu’on n’utilise jamais seul puisqu’il ne peut pas couvrir l’ensemble des formats de données. DCAT utilise un ensemble de corps génériques appelé Dublin Core, FOAF un vocabulaire permettant de décrire des personnes.

L’existence d’un mix de vocabulaires est logique. Ces vocabulaires n’expliquent pas quels sont les champs facultatifs et quels sont les champs obligatoires, qu’est ce qui absolument à utiliser. Ils présentent un éventail de possibilité mais n’expliquent pas forcément les méthodes d’usage.

D’où à partir de ces vocabulaires, il y a les profils applicatifs qui ont été déterminés pour y remédier. On cite parmi ces profils applicatifs DECAT AP qui a été généré de DCAT pour décrire comment utiliser DCAT. Il y a d’autres exemples comme ADMS, schema.org qui constitue un ensemble de vocabulaires faits par les moteurs de recherche google, yahoo, bing et qui permet à des pages web d’exposer des métadonnées en suivant ce vocabulaire et aux moteurs de recherche d’utiliser les métadonnées exposées dans les pages web en vue d’indexer le contenu qui est parfois amélioré dans les résultats de la recherche. C’est un ensemble de vocabulaires très intéressant dans le cadre de la promotion de données ouvertes auprès du grand public et il est beaucoup moins précis que les autres vocabulaires. La sémantique avec schema.org est nettement moins forte et son utilisation est beaucoup plus lâche.

Pour les métadonnées structurelles, les métadonnées citées avant peuvent aussi être utilisés dans les jeux de données. En fait, on va pouvoir retrouver les mêmes vocabulaires et puis après pour les données multidimensionnelles, il y a SDMX pour la représentation de données très volumineuses à plusieurs dimensions en particulier des statistiques comme les stocks de données de l’Institut National de la Statistique. Le RDF Data Cube est basé sur SDMX et a pour fonction d’élargir le traitement multidimensionnel au-delà des données statistiques.

Le but de la discussion lors de l’atelier est d’essayer de trouver des pistes et de voir quels vocabulaire et profils d’application à adopter. Qu’est ce qui peut être inclus dans le décret comme propriété obligatoire en termes de métadonnées ? Quels sont les processus à définir ?

L’application de standards de métadonnées à l’Institut National de Statistique, Directeurs à l’Institut National de la Statistique.

Cette présentation vise à décrire les outils utilisés par l’INS pour apporter un descriptif des enquêtes réalisées ainsi que les outils de diffusion.

Pourquoi standardiser ? Tout simplement pour harmoniser, réutiliser les mêmes mots clés et partager ensemble la documentation. Ceci implique un processus, des méthodologies et des outils communs.

Les phases d’enquête sont les suivantes : la planification, préparation de questionnaires et de l’échantillonnage, la collecte, le chiffrement, la saisie. Et actuellement ces 3 trois dernières phases sont rassemblées en une seule vu que la collecte se fait par tablette.

Au terme de ces phases, on constitue les donnés bruts. Ces données doivent être archivées. Puis un apurement statistique est réalisé afin d’en extraire les données finales qui sont également documentées et archivées. Il est essentiel d’effectuer l’anonymisation des données afin de protéger les données personnelles.

Finalement, la plateforme donne accès aux micros-données après publication. La diffusion des métadonnées s’établit tout comme pour les micro-données sur la plateforme NADA (National Data Archive).

Pour documenter les enquêtes, l’INS utilise le standard DDI (Data Documentation Initiative). C’est une norme internationale qui sert à définir les différentes étapes d’une enquête, de la planification jusqu’à la publication. L’INS utilise d’autre part, le DCMI (Dublin Core Metadata Initiative) pour documenter les ressources externes par exemple pour documenter un fichier pdf contenant le questionnaire. IHSM.org est l’un des outils utilisés (accessible par tout le monde) afin de documenter les enquêtes ou les données administratives. Quant à l’anonymisation, l’outil utilisé est Statistical Disclosure Control.

L’outil Nesta Publisher permet à l’INS de réaliser des métadonnées descriptives, structurelles et administratives. La première partie que présente cet outil représente les métadonnées des métadonnées : contexte général de la documentation, version des métadonnées. La deuxième partie englobe la description de l’enquête, de l’échantillon correspondant, du mode de collecte, et de son processus. La troisième partie permet de décrire les fichiers de données (fichier ménage, fichier, logement et fichier individu) et les variables. La quatrième partie décrit les ressources externes qui sont en d’autres termes les fichiers pdf (rapport, questionnaires…), les vidéos éventuellement… Les trois premières parties suivent le standard DDI. La quatrième partie suit le standard DCMI.

Une seule enquête ou un seul jeu de données peut générer plusieurs versions de documentation. Pour différencier dans ce cas, il faut vérifier la partie description du document.

A l’INS on est censé formater des données selon les requêtes. Parfois les jeux de données communs sont refaits de plusieurs façons rien que pour satisfaire les requêtes. De même, l’INS collecte de l’information en interne et en externe. Et à la collecte en externe se pose la contrainte des formats différents, des standards différents. Le formatage de ces données cause une perte énorme de temps.

C’est à ce niveau que l’usage du standard SDMX (Statistical Data and Metadata eXchange) est nécessaire. Une autre alternative pas encore exploitée mais qui reste envisageable en Tunisie est d’aller vers le Data Hub qui consiste à laisser l’information chez le producteur et de créer une interface unique qui récupère l’information de l’ensemble des producteurs.

Du coup, on a besoin de standardiser la communication avec ces parties parce qu’il y aura une seule requête de plusieurs sources en même temps sans devoir prendre en considération la structure et l’infrastructure utilisée. Le cas pratique pris comme exemple est le Census Hub réalisé par l’organisme statistique européen qui rassemble les données de plusieurs pays en temps réel indépendamment de la technologie utilisé par chaque État.

Pour l’INS, l’usage en SDMX s’impose car les échanges avec le FMI sont en SDMX. Ce standard constitue en quelque sorte un langage conventionnel international.

L’expérience de l’archive national en matière d’archivage électronique : Responsable à l’Archive National

La politique nationale d’archivage est basée sur un corpus réglementaire assez complet qui prend en charge les documents dès la création. Il existe un manuel de procédure pour la préservation des documents et un outil de gestion des documents.
Le cycle de vie d’un document :

Dans un environnement Papier : phase active, phase pré-active et phase primitive.
Dans un environnement électronique dépend de sa durée d’utilité administrative.

De point de vue traitement, tous ce qui est applicable au document papier et aussi applicable au document numérique.

Il existe différents type de documents : documents nativement électroniques, documents sur support papier ou analogiques, document hydride qui est un document nativement électronique auquel a été associé un document numérisé.

L’expérience d’archivage numérique s’est attaquée à ses débuts aux archives les plus fragiles, ceux qui circulent sur internet et sur les supports mobiles. Avec le changement de support ou l’évolution technologique, plusieurs documents risquent d’être perdus ou carrément disparus. Une collecte des archive privée a été effectuée à travers une fouille, des médias, des blogs des activistes, journalistes et militants politiques sur les événements liés à la révolution tunisienne et aux martyrs. L’objectif de cette opération est de préserver le contenu numérique qui met la lumière sur une partie de la mémoire collective et de donner le moyen aux générations futures de consulter l’archive et aux historiens de reconstituer la mémoire. Il s’agit d’une source originale (ni journalistique, ni publique) avec un nouveau support.

La plateforme d’archivage opensource qui rassemble cette mémoire numérique est Alfresco Community. L’insertion de documents sur cette plateforme implique de rajouter les métadonnées relatives : nom de documents, date de publication, description, auteur, mots clés etc. 800 Go de documents de tout type ont été conservés actuellement par l’Archive National sur cette plateforme. L’architecture de la plateforme est similaire à un réseau social ce qui facilite l’interaction avec l’option des commentaires intégrée et un moteur de recherche par mots clés.

L’expérience du portail national en matière de métadonnées : L’Unité d’Administration Électronique L’alimentation du portail national en jeu de données se fait de 2 manières : les ministères qui ne détiennent pas de portail open data sont responsables de leurs données en se connectant à travers un compte dédié permettant la manipulation des jeux de données correspondantes. Pour les ministères équipés de plateforme open data, le standard DCAT (Data Catalog Vocabulary) représente l’instrument qui garantit la synchronisation entre le portail et les ministères en question. Chaque jeu de donnée dispose d’une fiche d’identité qui rassemble les métadonnées relatives. Le portail offre à chaque producteur la possibilité de personnaliser son modèle de métadonnées selon le besoin. Les jeux de données sont assignés à des thématiques afin de faciliter l’accès et renforcer l’utilisation des jeux de données.

atelier_metadonnees

Télécharger le fichier PDF