Compte rendu V: Qualité des données

Animé par : Experts internationaux en Open Data

Mot d’ouverture :

L’atelier vise à définir les critères de qualité d’un jeu de données et la façon de structurer et de publier ces jeux de données.
Un rappel a été brièvement fait du contexte général, de la phase actuelle du projet de conception du décret et des raisons de cette initiative.

Qualité d’un jeu de données : 
La qualité d’un jeu de données recouvre un nombre très large de ministères et l’amélioration de la qualité d’un jeu de données passe par un ensemble de processus. Parmi ces critères, il existe l’utilisation d’un référentiel de données de manière à gagner en homogénéité et à assurer le croisement des jeux de données. Il y a également le critère du format ; La réutilisation des données est dépendante fortement du format de publication. Le troisième critère est la gestion des versions à travers la documentation de la succession des jeux de données et la garantie d’accessibilité des versions révolues, l’exposition des éléments du changement. Cette documentation n’est pas réalisée tant pour la machine que pour l’être humain.

Dès qu’on commence à publier des données ouverte, il faut essentiellement pouvoir faire en sorte qu’une référence soit pérenne. Et puis, il y a l’évaluation de cette qualité. Il faut pouvoir déterminer pour cela l’échelle de qualité à adopter parmi les 2 principales existantes : ODI et celle de Tim Berners-Lee.

Dernier point déterminant en termes de qualité est le niveau de désagrégation : est-ce qu’on précise un niveau de désagrégation dans le décret ? Si oui, lequel ?

Concernant les formats, il est important de pouvoir trouver des formats de données ouvertes en ligne c’est-à-dire accessible par un être humain et exploitables par un ordinateur. La question qui se pose à ce niveau est la suivante : est-ce qu’on oblige un format ouvert et on laisse le soin de le spécifier par le comité de pilotage ?

Quant à la gestion des versions historiques, la question se pose au niveau de la maintenance des anciennes versions de jeux de données. Est-ce qu’on peut faire en sorte que ces jeux de données restent accessibles ? C’est des contraintes qui sont au niveau du portail national.
Il y a plusieurs niveaux de documentation possibles allant de la description des jeux données jusqu’à la description des référentiels, critères d’évaluation et processus de maintenance sans oublier la description des métadonnées.

Persistance des références :

Les codes informatiques en général sont basés sur la notion des identifiants qui peuvent être des URL ou des URI. Par persistance, ce qu’on entend lorsqu’on fait une publication open data, c’est la possibilité d’avoir une URL qui ne bouge pas, qui ne bouge jamais. C’est en d’autres termes, avoir un identifient pérenne et permanent. Un jeu de données sera par conséquent toujours accessible à l’URL correspondante. Pour pouvoir réaliser cela, au départ on fera face aux contraintes du portail national. Par la suite, on serait amené à adopter un schéma qui ait une certaine logique. Il faut essayer de limiter certains effets. Un de ces effets, c’est de faire allusion à la paternité des jeux de données dans l’URL alors que ces jeux de données suivront éventuellement un cycle d’archivage auprès d’une autre entité. Il existe des mécanismes et des bonnes pratiques qui permettent de faciliter la persistance des références.

Cartographie Citoyenne évoque à ce stade la problématique de l’URL unique à l’Institut National de la Statistique qui ne permet pas de suivre les mises à jour de données à travers l’identifiant en question. Quand on effectue n’importe quelle requête sur la base de données, le lien ne change jamais quelque soit le jeu de données recherché. La tentative de création d’une application de traçage des mises à jour a en quelque sorte été entravée par cette barrière technique. L’expert open data confirme que c’est dans les mauvaises pratiques qu’un point d’entrée unique couvre un grand jeu de données. Peut être qu’il serait pertinent de mentionner dans les décret que chaque jeu de données doit avoir une URL unique qui à la fois pointe vers la dernière version et une URL qui pointe vers la version spécifique mais surtout s’assurer d’éviter le point d’entrée unique à portail qui couvre tout parce que du point de vue informatique il est impossible de récupérer les informations dont a besoin.

Les échelles de qualité :

Les échelles de qualité qui existent sont actuellement au nombre de deux mais libre à chacun d’inventer par la suite ses propres échelles de qualité. Réutiliser les échelles existantes reste toutefois une bonne alternative. La plus connue c’est l’échelle 5 étoiles inventée par Tim Berners-Lee qui représente une échelle d’évaluation des publications open data. Au niveau 1 c’est juste la publication de la donnée et on arrive au niveau 5 où la donnée est non seulement publiée dans un format ouvert, exploitable par tous, selon des référentiels basés sur des URL uniques, mais également objet à croisement favorisé par l’étroite liaison entre l’ensemble des jeux de données. Le niveau 3 paraît être le niveau auquel on répond déjà et c’est le niveau le plus atteignable : publier des données dans un format ouvert est déjà un niveau extrêmement positif.

Il y a également l’échelle de l’Open Data Institute qui évalue la qualité des données avec différents niveaux : bronze, argent, or, et platine. Autant l’échelle des 5 étoiles est technique avec un intérêt axé données particulièrement, autant l’échelle d’ODI prend en compte la documentation, les garanties de mise à jour, de support etc. L’évaluation des jeux de données n’est pas indépendante du processus avec l’ODI.

Niveau de désagrégation :

Un bon niveau de désagrégation va permettre déjà de garder des jeux de données à une taille raisonnable en vue de faciliter leur réutilisation, le téléchargement et la compréhension par l’utilisateur. Si un utilisateur est condamné à télécharger un fichier de 500 Go de données, ça oblige à des contraintes techniques. Et puis une taille raisonnable de données permet d’inciter l’émergence d’applications locales en permettant le croisement de données au niveau local.

L’intervention de Cartographie Citoyenne à ce niveau expose, d’une part, le retour à une expérience communautaire (Openstreet map Tunisie) de découpage territorial en vue de rationaliser certaines réflexions sérieuses autour de la nécessité de désagrégation et d’autre part, la quasi-inexistence de données ouvertes à l’échelle la plus fine administrativement : le secteur.

Présentation des nomenclatures de données et de leur impact sur la qualité : Chargé d’élaboration et de maintenance des nomenclatures à l’Institut National de Statistique & gestionnaire général des documents à l’archive national

Ces travaux s’intègrent dans le cadre de la coordination technique des activités statistiques. Il est à rappeler que la loi relative au système national de la statistique confie à l’Institut National de la Statistique le rôle de la coordination technique des activités statistiques et notamment l’élaboration de nomenclatures harmonisées à l’échelle nationale et internationale en vue de renforcer la compatibilité en matière de production statistique. L’INS élabore des nomenclatures économiques, sociales, géo-spatiales et plusieurs autres types de nomenclatures. La présentation se focalise sur les travaux de nomenclature réalisés par l’INS et le dispositif national de nomenclature.

Dans le jargon anglo-saxon, la notion de nomenclature renvoie aux classifications qui permettent de structurer un univers quelconque. Ça peut être des activités, des professions, des unités administratives, des espèces animales etc. La nomenclature des activités fait appel en quelque sorte à la classification de produit.

La nomenclature est une référence commune qui garantie la structuration et la fiabilité des données. C’est aussi un langage. Derrière les mots d’une nomenclature, il y a des concepts conventionnels. A l’échelle internationale d’importants travaux de nomenclature au sein de l’ONU et d’Eurostat visent à coordonner les modèles. Ce vocabulaire aussi harmonisé que possible qu’est la nomenclature autorise une génération des connaissances.

L’harmonisation a des avantages et des inconvénients même à l’échelle internationale : l’avantage se manifeste par un renforcement des comparabilités, l’inconvénient c’est l’abstraction faite des spécificités locales.
On parle souvent de nomenclatures centrales et de nomenclatures dédiées. Une nomenclature dédiée s’intéresse à un environnement bien spécifique par exemple les nomenclatures spécifiques aux enquêtes, les nomenclatures de synthèse qui servent à diffuser des données, ou encore les nomenclatures douanières. Par contre les nomenclatures centrales servent à tout usage. La nomenclature d’activités tunisiennes est une nomenclature centrale qui sert comme un modèle à d’autres nomenclatures dédiées. On peut citer comme exemple de nomenclatures centrales la NAT (Nomenclature des Activités Tunisiennes), la CDP (classification Des Produits), la CTI à l’échelle internationale. Les nomenclatures dédiées doivent converger vers la nomenclature centrale. Par exemple, lorsqu’on on a élaboré la nomenclature des activités tunisiennes, et pour le besoin de l’Office National de l’Artisanat, on a conçu une nomenclature connexe qui converge vers la NAT et tient compte des spécificités de l’organisme des activités artisanales.

Du point de vue terminologique, on parle souvent de nomenclature d’activité qui structure les unités exerçant des activités. Pour les nomenclatures de produits, c’est pour structurer les objets produits ou échangés.
Historiquement, un système international des nomenclatures a été élaboré vers la fin des années 80 sous l’égide des Nations Unies et précisément par la commission statistique des Nations Unies en collaboration avec bon nombre d’organismes pour renforcer la comparabilité des nomenclatures à l’échelle internationale. Ces travaux sont couronnés par la mise en place vers la fin des années 90 du Système International de Nomenclature d’Activités et de Produits (SINAP) et principalement l’élaboration de la classification nationale par industrie. Suite à ces travaux, des déclinaisons régionales et nationales ont été réalisées à l’échelle européenne. Le comité européen a élaboré la nomenclature d’activités dans sa première version en 1990.

Au niveau national, en 1994, il y a eu la publication du décret de la mise en place du répertoire national des entreprises qui confie à l’INS la mise en place et la maintenance de ce registre qu’est le répertoire national des entreprises. Beaucoup d’organisme détenaient des fichiers administratifs volumineux et utilisaient des nomenclatures très anciennes datant des années 60 et des années 80. On a conclut la nécessité d’élaborer une nomenclature unique et qui soit harmonisée avec les nomenclatures internationales. L’INS en coordination avec tous les partenaires économiques et sociaux a élaboré la nomenclature des activités tunisiennes dans sa version de 1996. Et cette nomenclature a été homologuée norme tunisienne par l’INNORPI. Une élaboration de classification tunisienne des produits a suivi en 2002 cette nomenclature. Ce qui constitue notre dispositif national d’activités et de produits. En 2002, la commission statistique des Nations Unies a initié des révisions majeures et profondes de SINAP. Et ces révisions ont débouché sur l’élaboration de la classification internationale par industrie dans sa version 4 et l’élaboration de la classification centrale des produits (CDP). En 2007, l’INS a lancé la révision de notre dispositif national de nomenclatures d’activités et de produits. Et ces travaux ont abouti à la nomenclature des activités tunisiennes de 2009 et la classification tunisienne des produits de 2009.

L’application du décret 390 de 2007 qui est relatif au code d’investissement oblige tous les partenaires dans le cadre du renforcement des investissements d’adopter la nomenclature d’activités tunisiennes comme un référentiel unique pour classifier les unités d’activité. On a initié des travaux très intenses de formation des différents partenaires à la nomenclature d’activité et de coordination des travaux d’implémentation de la nomenclature en question par les partenaires économiques et sociaux.

Il est à remarquer que malheureusement jusqu’à la révision de la NAT 1996, peu sont les organismes qui utilisent ces référentiels. Les organismes détenant des fichiers énormes sur les entreprises comme la CNSS et la Direction Générale des Impôts utilisent des nomenclatures très anciennes datant des années 60. Les objectifs d’implémentation de ces référentiels au sein du système national de statistique n’ont pas été atteints malgré les efforts déployés par l’INS pour y converger. Les raisons de cet échec sont généralement d’ordre organisationnel. Il y a des partenaires qui détiennent des fichiers gigantesques et trouvent des difficultés de basculer des référentiels anciens vers les nouveaux. Ce sont des opérations qui coûtent du temps et de l’argent. Et souvent la vision d’un statisticien n’est pas la vision d’un administrateur. Pour les administrations c’est la gestion courante qui prime et changer de référentiel semble être très contraignant. Pourtant l’INS a fourni aux différents partenaires, les documentations nécessaires, les tables de passage entre les versions adoptées et les nouvelles nomenclatures et réalisé plusieurs ateliers de formation pour le compte de ces organismes.
Est-ce qu’il y a une obligation pour les institutions d’adopter les nouvelles nomenclatures ?

L’adoption de la NAT 1996 et la CDP 2002 étaient volontaires. C’est la raison pour laquelle beaucoup d’organismes n’ont même pas suivi. Actuellement, les nouveaux référentiels (NAT et CDP) ont un caractère obligatoire selon le décret 390 et le code d’investissement. Un délai de 2 ans a été accordé à l’ensemble des institutions assujetties au code d’investissement pour basculer vers les nouveaux référentiels et une année a été déjà écoulée.

Outre les deux nomenclatures économiques citées précédemment, il existe en Tunisie une nomenclature géographique qui est la classification des codes géographiques et une nomenclature sociale qui est la nomenclature nationale des professions.
La NAT et la CDP sont en version française.

Il existe 2 différentes approches pour amener les institutions à adopter les nomenclatures : une approche de recommandation et une approche d’obligation.

L’expert Open Data montre qu’il est important que le comité de pilotage promeuve l’élaboration de nouveaux référentiels et cite comme exemple le référentiel français de base d’adresse nationale.

Un responsable du ministère du transport assure que la base d’adresse constitue l’une des composantes du projet INIG initié conjointement par la CNCT (Centre National de Cartographie et de Télédétection) et la poste.
Un serveur rassemblera prochainement l’ensemble des nomenclatures pour permettre à tout le monde l’accès et l’exploitation de ces référentiels. Ce serveur contiendra également les tables de passage entre les différentes versions.

Discussion :

Trois éléments essentiels ont suscité le débat durant cet atelier à savoir l’obligation ou pas d’adopter les nouvelles nomenclatures, quelle échelle d’évaluation viser et quelle niveau de désagrégation formaliser.
Cartographie Citoyenne a proposé l’obligation d’adoption de toutes les nomenclatures récentes par l’ensemble des institutions en se basant sur l’échec d’implémentation déjà vécu dû quelque part à l’ancienne disposition volontaire des référentiels. Un responsable du ministère de l’intérieur oppose à cette position l’impossibilité technique de basculer vers les nouveaux référentiels et le blocage que susciterait l’obligation de faire. Pour tempérer, il a été proposé de recommander l’implémentation en second temps avec une obligation d’assistance technique. Face à l’acceptation des autres ministères du caractère obligatoire des nomenclatures, l’Unité d’Administration Électronique tranche pour le caractère obligatoire avec un délai d’implémentation à décider ultérieurement par le comité de pilotage et l’ensemble des ministères.

L’échelle d’évaluation a été critiquée par le ministère de l’intérieur affirmant que la publication pdf est considérée comme un degré d’ouverture de données et qu’on ne peut pas adopter une telle échelle plus avancée, car les contrats par exemple ne peuvent être publiés que sous un format pdf. Cet avis a été réfuté par les experts en montrant que les fichiers textes permettent l’exploitation de ce genre de document et l’accès au second degré d’ouverture à l’échelle des 5 étoiles. Et après discussion, le niveau à viser pour l’évaluation sera le degré 3 de l’échelle qui stipule la publication des données sous format CSV. Le souhait d’affiner le plus possible la désagrégation évoqué par le projet Cartographie Citoyenne s’est vu opposé les craintes des administrateurs de l’INS essentiellement de rentrer dans le cadre des données personnelles. Et la décision prise à mi-chemin était d’obliger la publication des données publiques au niveau le plus fin de désagrégation dans la mesure où ça n’interfère pas avec des données personnelles.

atelier_qualite

Télécharger le fichier PDF