Data miner, Que fais-tu ?

L'open data, c'est fantastique ! mais qu'est-ce qu'on en fait au juste ? Nous avons demandé à l'un de nos spécialistes du sujet de vous faire entrer dans cet univers devenu essentiel pour ADEQUATION.

Maxime Pranchère

Publié le 16/01/2023

 

L'open data s'est considérablement développé depuis environ 5 ans, de nombreuses bases de données gérées par les administrations françaises ayant été ouvertes au public.

Certaines fonctionnent comme des référentiels, c'est-à-dire qu'elles permettent à différentes bases de données d'adopter des champs communs grâce auxquels les utilisateurs pourront les croiser. C'est le cas de la Base Adresse Nationale (BAN) par exemple, du fichier SIRENE des entreprises, ou encore des données cadastrales. Elles permettent aussi d'affiner des informations. Nous nous servons par exemple de la base cadastrale pour préciser la localisation des programmes immobilier neufs que nous recensons.

D'autres, que nous appelons "bases métier" s'apparentent à des extractions du système d'information des administrations. C'est typiquement le cas des données de valeurs foncières (DVF), enregistrées par la direction générale des Finances publiques à chaque mutation. Ce type de base permet d'enrichir ou de mieux qualifier des données que nous avons par ailleurs, mais aussi de générer de nouvelles données en croisant les informations.

Une troisième catégorie est mixte, comme la Base Nationale du Bâtiment (BDNB) du CSTB. Elle a été développée à la fois comme une base métier pour le projet Go-Rénove, mais aussi comme un socle référentiel pour identifier les bâtiments et interopérer d'autres jeux de données.  

Une adolescence prometteuse

L'open data place tous les acteurs du marché de l'information à égalité quant à l'accès aux données. Pour autant, "donnée accessible" n'est aucunement synonyme de "donnée exploitable", et ce pour plusieurs raisons.

Une première série de difficultés renvoie aux sources des données. On observe par exemple une forme de "concurrence" entre référentiels. C'est le cas des adresses, puisque coexistent actuellement trois bases, une gérée par Étalab, une autre par l'IGN et une troisième venant du projet Open Street Map. Un groupe de travail vient d'être créé pour unifier ces différentes bases et c'est une très bonne chose. Cette dynamique devrait se retrouver dans d'autres domaines, le bâtiment par exemple, où nous avons aujourd'hui deux grands référentiels, celui du CSTB et celui de l’Observatoire National du Bâtiment (données IMOPE). Mais on n'y est pas encore…

Ce défaut ou ce retard de gouvernance est l'un des symptômes d'une certaine immaturité de l'open data en général. Certaines administrations sont moins avancées que d'autres dans la mise à disposition de leurs données, qu'elles soient plus réticentes à le faire, ou que leur système d'information soit intrinsèquement mal adapté à ce partage, ou encore qu'elles n'aient pas de techniciens dédiés à l'open data.

Cela étant, il faut bien voir ici le verre à moitié plein : ces dysfonctionnements sont d'abord l'indication d'une marge de progrès importante.

Un recul critique nécessaire

Une autre série de difficultés renvoie aux données elles-mêmes et les pièges à éviter sont assez nombreux.

Une donnée n'est pas toujours ce que l'on croit. On se doit de bien comprendre comment elle a été construite par l'administration qui la procure avant de l'utiliser car on n'est pas à l'abri d'un contresens. Il est important, d'une manière générale, de savoir comment la donnée a été collectée pour l'interpréter correctement.

Par exemple, pour les données INSEE issues du recensement général de la population, cela n'a pas de sens statistique de comparer des années d'une même période intercensitaire puisque ce sont des projections et non des données réelles. Autre exemple, les données collectées de manière déclarative ont forcément une part d'inexactitude et c'est le cas de quasiment toutes celles qui proviennent de la DGFIP.

Il faut également savoir repérer les anomalies liées à des valeurs extrêmes ou à des erreurs de saisie, et supprimer les valeurs aberrantes. Dans la base DVF, par exemple, la vente d'un château sur une commune ou à l'inverse des cessions à l'euro symbolique peuvent fausser significativement la moyenne des prix de vente.

Du travail pour les data miners

ADEQUATION utilise un grand nombre de données en open data dans le cadre de ses missions d'études et de conseil. Ces données servent aussi à enrichir et affiner sa propre plateforme, accessible pour ses clients via ses solutions digitales : le Fil résidentiel et e-Focus (à ce jour).

D'où l'importance de la direction Data et numérique. Ses data miners sont là pour assurer une veille de l'open data, mais aussi pour automatiser et industrialiser l'ensemble de la chaîne de traitement : détection, récupération, nettoyage et structuration. Quand ce travail a été fait pour un jeu de données ouvertes brutes, le fichier est automatiquement récupéré à chaque mise à jour, et les données qualifiées versées dans notre système d'information, où nos consultant(e)s et chargé(e)s d'études peuvent aller le chercher pour l'utiliser.

Itérations et cas réels d'usage

Avant d'en arriver là, nous commençons par un traitement manuel, dans un processus itératif qui permet d'évaluer les potentialités du jeu de données. Un exemple parmi bien d'autres : nous étudions actuellement les possibilités de croisement des DVF avec la BD Topo de l'IGN pour connaître l'année de construction des bâtiments vendus. Cela intéresse nos chargés d'études de distinguer le neuf et l'ancien récent dans l'ensemble des ventes, ce que ne permet pas la base DVF seule. Ce cas d'usage nous permet de tester concrètement l'intérêt des données ainsi produites avant de passer au stade algorithmique du travail, qui permettra le cas échéant d'en automatiser la production.

On comprend ainsi l'extraordinaire avantage de la présence d'experts métiers et d'experts data au sein de la même entreprise ADEQUATION. Les premiers sont en quelque sorte les clients des seconds, ils savent exprimer leurs besoins, orienter la veille, juger de l'intérêt de tel ou tel croisement de données. Se crée alors une culture commune de la donnée qui fait progresser chacun dans son expertise propre.

Une vraie valeur

Si les métiers de la donnée sont tellement enthousiasmants, ce n'est pas seulement parce que l'open data apporte une extraordinaire richesse d'information et promet, un jour, d'harmoniser le langage des données pour démultiplier encore ce potentiel. C'est aussi parce que, bien employée, l'expertise du traitement de la donnée procure un réel sentiment d'utilité, de création de valeur.

C'est une chose d'avoir de l'or et des pierres précieuses dans la mine, c'en est une autre de produire des bijoux. Notre travail consiste à aller chercher cet or, à l'assembler avec cette émeraude, pour combler par cette orfèvrerie les exigences des utilisateurs.


© this is engineering - Pexels

Godron jeu, 01/19/2023 - 10:21

Bravo, un topo très clair et de surcroît bien écrit !

Réagissez