Open data : définition, principes et applications Big Data

Nov 3, 2021 | Archi/Big Data

Le mouvement de l’open data ne cesse de monter en puissance. Il engage un nombre toujours plus important d’administrations, d’Etats, de chercheurs, de citoyens, d’entreprises et de startups. D’envergure mondiale, l’open data est né de la rencontre d’idées scientifiques de partage des connaissances avec les aspirations du logiciel libre et de l’open source. Mettant en avant la notion d’ouverture par défaut des données administratives, il a pour vocation d’offrir l’accès à des jeux de données publiques en provenance de tous territoires à travers le globe. Cette manne de données constitue une ressource considérable pour la production de statistiques, d’études, de projections et surtout d’applications visant le progrès et se voulant d’utilité publique.

Définition de l’open data

Les principes de l’open data ont pu être synthétisés en dix points, définis par la Sunlight Foundation. Ces points permettent de guider les applications de l’open data.

Les données open data se doivent donc d’être :

1. Complètes: elles doivent représenter l’intégralité de ce qui est collecté par une administration sur un thème particulier, y compris les métadonnées expliquant leur mode de collecte. Ce point reflète la notion d’open data par défaut mise en avant par la charte internationale de l’open data. C’est aujourd’hui une norme en France depuis l’adoption de la loi pour une République Numérique.

2. Primaires(ou brutes) : les données doivent être non agrégées et telles que collectées à la source, conformément aux attentes portées par Tim Berners-Lee,

3. Fraîches: afin de conserver leur valeur, les datas doivent être publiées le plus tôt possible, voire en temps réel lorsque cela est envisageable,

4. Accessibles: les données doivent être directement téléchargeables, sans enregistrement préalable,

5. Lisibles par les machines: les données doivent être partagées dans des formats les plus standards possibles et exploitables automatiquement. Si nécessaire, une documentation sur le format doit être fournie avec le jeu de données,

6. Accessibles sans discrimination: les données doivent être accessibles directement, sans justification ni enregistrement en ligne ou recours à une tierce personne,

7. Disponibles sous des formats ouverts: ces formats ne doivent pas être la propriété d’une organisation en particulier et doive faire, si possible, l’objet d’une gouvernance commune par leurs usagers,

8. Disponibles sous licence ouverte: la licence ne doit présenter aucune restriction ou conditions d’accès. Pour plus de détails, il est utile de consulter les conditions d’Open Definition.

9. Accessibles en ligne de façon pérenne: les données et les différentes versions successives des jeux de données doivent rester disponibles et téléchargeables en permanence, en étant archivées (pas de stream de données).

10. Sans coût d’utilisation: l’accès et la réutilisation des données doivent être gratuits.

> À LIRE AUSSI : Acteurs publics : les enjeux du traitement des données

 

Comment utiliser et partager l’open data ?

Les open data doivent respecter différents critères techniques, économiques et juridiques : elles doivent être accessibles librement et gratuitement en ligne, dans un format permettant leur réutilisation.

Avec un jeu de données en open data, chacun est donc libre de :

  • Partager: copier, distribuer et utiliser la base de données,
  • Créer : faire acte de création à partir de cette base de données (applications, rapports, restitutions, infographies, statistiques…)
  • Adapter : modifier, transformer et construire à partir de la base de données.
Enquête National

Il suffit pour cela de respecter trois conditions :

 

  • Mentionner la paternité: citer la source de la base de données pour toute utilisation publique de cette base, dans les mêmes termes que mentionne l’Open Database License (ODbL). En cas d’utilisation, de redistribution de la base ou de création à partir de cette base, la licence de la base de données doit être mentionnée, sans modifier les mentions légales de la base de données originale,
  • Repartager à l’identique: si vous utilisez publiquement une version adaptée de cette base de données, ou que vous produisez une création à partir d’une base de données adaptée, cette base de données adaptée doit être partagée selon les termes de la licence OdbL concernant les informations de même nature, de même granularité, de mêmes conditions temporelles et de même emprise géographique,
  • Garder l’open data… ouverte : il n’est pas possible d’appliquer des mesures techniques restreignant la création à partir d’une base de données open data modifiée ou redistribuée par vos soins, sans proposer en parallèle une version non restreinte.

Valorisation de l’Open Data par le Big Data

L’utilisation conjointe du Big Data et de l’open data peut s’avérer d’une grande puissance, prompte à influencer voire transformer les gouvernements, les villes, les entreprises et les citoyens.

Les capacités de stockage et de traitement de données en masse du Big Data, combinées à la data science et la définition de modèles identifiant des relations de cause à effet, permettent d’extraire de précieuses informations à partir des open data que produisent les collectivités ou administration.

Avec de grandes quantités de données disponibles, il est bon de rappeler quelques facteurs clés de succès du Big Data :

  • Une collecte et un stockage de la donnée en quantité et en qualité suffisante,
  • Des traitements statistiques, visuels, par Machine Learning pour analyser les données,
  • Un classement, une hiérarchie dans l’information pour pouvoir tirer des conclusions pertinentes et/ou prendre des décisions à l’aide d’outils de visualisation.

Les possibilités de cas d’usage sont évidemment très étendues. Voici quelques exemples de champs d’application illustrant la valorisation directe de l’open data.

CovidTracker, un cas d’usage d’open data

Le data scientist Guillaume Rozier avait souhaité, par simple intérêt personnel, collecter différentes données dans un contexte de manque d’information, au début de la crise de la COVID-19. Il a procédé tout d’abord à du scraping manuel à partir de données universitaires.

Il a ensuite rapidement développé une application et un site web sous le nom de CovidTracker. Après avoir lancé un appel, Guillaume Rozier a fédéré plus de 150 contributeurs qui ont participé au perfectionnement des algorithmes, à la refonte du site, ainsi qu’au développement des applications mobiles, le tout en quelques jours seulement.

Gérant des données open data en entrée et en sortie, la plateforme propose outils, tableaux de bords et articles permettant de suivre l’évolution de l’épidémie selon les tranches d’âge, les régions, la gravité des cas…

Avec 10 millions d’utilisateurs actifs (dont les directions des autorités gouvernementales et de santé) et 5 millions de vues quotidiennes lors des pics de l’épidémie, CovidTracker a rencontré un succès inattendu et finalement permis de mettre en lumière une appétence grandissante des citoyens pour la data.

Elle matérialise également le cercle vertueux de l’open data : CovidTracker a utilisé des données mises à disposition par l’état puis republié ces données qui ont ensuite été reprises sur le site web du ministère des solidarités et de la santé. La même vision a été adoptée pour le développement du site vitemadose.fr.

Open data et smart city

La smart city, ville intelligente de demain, se veut numérique, connectée, durable, écologique et au service du citoyen. Son potentiel réside dans la mise en connexion et le croisement des divers de types de données collectées : énergie, transports, flux de circulations, mobilités intelligentes, social… En bout de chaîne, les algorithmes et l’IA apportent tout le système d’aide à la décision qui permet aux collectivités d’avancer et de progresser. L’open data est au cœur de cette vision, notamment pour répondre aux demandes de transparence des habitants. Déjà, de nombreuses métropoles proposent leur portail d’open data, comme Paris, Rennes avec un portail à la pointe ou Nantes avec 1,5 millions de connexions mensuelles sur le portail de Nantes Métropole, pour n’en citer que quelques-unes.

> À LIRE AUSSI : Penser la smart city : data management, open data et libertés

Outre la transparence envers le contribuable, la mise à disposition des données open data permet surtout de favoriser l’innovation et le développement de nouveaux services pour les habitants, avec un potentiel immense :

  • Transports : Etat du trafic en temps réel, calcul de temps d’itinéraire à vélo, indication des disponibilités de places de stationnement ou de retard des transports en commun, disponibilités des mobilités nouvelles (vélos ou véhicules en libre service, etc.),
  • Vie et gestion de la ville: consultation en data visualisation du budget de la ville ou de statistiques diverses comme le volume de déchets générés, la consommation d’énergie (voir l’exemple d’un portail open data EDF proposant des données de consommation électrique)  recensement de logements vacants grâce à ces mêmes données énergétiques, gestion de l’éclairage public grâce suivant les mesures de  fréquentation des piétons ou des véhicules,
  • Social : calcul de droits ou d’aides auquel un habitant peut prétendre, estimation de l’impact de différentes mesures à travers la modélisation et la simulation, adaptation de mesures en fonction de critères démographiques ciblés et localisés, etc.

Les métropoles les plus en pointe sur l’open data cherchent à changer d’angle de vue sur les données dont ils disposent afin d’en extraire le maximum de valeurs et de services. Elles étudient également (selon des critères techniques, économiques et juridiques) la meilleure façon de partager réciproquement des données avec des acteurs privés de l’énergie, du transport, des télécommunications. L’objectif demeurant le développement de nouveaux usages de service public.

Plan France Relance : pilotage et transparence grâce au Big Data et l’open data

L’Etat vient d’initier le plan France Relance en engageant un budget de 100 milliards d’euros autour de divers dispositifs d’aides et d’appels à projets incluant les particuliers, les entreprises, les collectivités et les administrations.

Un tel plan génère plusieurs besoins : faire preuve de pédagogie auprès des personnels ministériels et des citoyens pour en communiquer les enjeux, mesurer et contrôler les demandes d’allocations d’aides, diffuser en toute transparence l’avancement et les résultats du plan.

Une cellule, Bercy Hub, a récemment été créée au ministère de l’économie et des finances. Cette cellule restreinte et agile a pour mission de poser un cadre autour de la donnée, l’open data, le Big Data et la data science. Elle vise ainsi à harmoniser le travail de la donnée entre les agents de l’Etat. Elle collabore également étroitement avec l’INSEE dont elle récupère un grand nombre de données dans une démarche d’open data. Bercy Hub a donc mis en place un dispositif combinant plateforme Big Data, outils de datavisualisation et open data pour opérer le suivi de ce plan de relance.

Les entreprises candidates doivent déposer un projet pour solliciter une aide. Les décisions d’accord sont prises à travers un maillage local sur tout le territoire. Le premier challenge réside dans la collecte de ces données. Elles doivent ensuite être traitées et vérifiées pour corriger des erreurs de saisie ou des incohérences. Des compléments d’informations sont récupérés dans d’autres bases (par exemple le code NAF, l’adresse, le numéro de siret ou siren) pour enrichir ces données. A la fin du processus, une nouvelle donnée de qualité est construite.

La donnée est ensuite renvoyée dans le territoire par un workflow afin que l’acteur ayant envoyé cette donnée puisse en connaître l’usage et ainsi se sentir pleinement engagé dans la démarche. Des tableaux de bords sont donc transmis aux préfets ou aux responsables du territoire puis les données sont diffusées en open data auprès de professionnels de la donnée. Ces derniers vont la rendre accessible et visuelle auprès du public sur la page dédiée du site France Relance.  

Les jeux de données open data y sont également téléchargeables à partir du portail open data du Ministère de l’économie, des finances et de la relance. Cette démarche permet ainsi, dans un contexte open data, de répondre aux fortes attentes politiques, médiatiques et citoyennes envers la gestion de l’argent public.

Cet exemple fait partie des nombreuses actions engagées par la France depuis 2011 pour se positionner comme un des leaders de l’open data. La dernière action marquante en la matière étant la circulaire signée en avril 2021 par le Premier ministre Jean Castex qui impose aux ministères un programme d’action pour l’ouverture des données publiques, des algorithmes et des codes sources. Le premier ministre a précisé à ce sujet : 

La politique de la donnée doit constituer une priorité stratégique de l’Etat dans ses relations avec tous ses partenaires, notamment les collectivités locales et les acteurs privés.

 Jean Castex – Premier ministre en France

 

Michel Mercier

Par Michel Mercier
Responsable éditorial chez DataValue Consulting

 

 

La rédaction vous conseille

> L’intelligence de la donnée au service de la modernisation de l’Etat

> Smart City : quelles opportunités pour les citoyens et le collectivités ?

 

Nos ressources

Livre Blanc

Mise en oeuvre d'une stratégie 
de qualité des données 

Livre Blanc

Feuille de route d'une stratégie
de Data Management 

Enquête Nationale

État des lieux du pilotage 
dans le secteur public en 2021 

Share This