Accueil > Analytics > Data Analytics > Open Data définition : Qu’est-ce que c’est ? À quoi ça sert ?
Découvrez la définition des Open Data

Open Data définition : Qu’est-ce que c’est ? À quoi ça sert ?

Les Open Data, ou données ouvertes, sont des données auxquelles l’accès est totalement public et libre de droit, au même titre que l’exploitation et la réutilisation. Ces données offrent de nombreuses opportunités pour étendre le savoir humain et créer de nouveaux produits et services de qualité. Découvrez une définition complète et des exemples concrets d’utilisation des Open Data.

open-data-banniere

Le terme Open Data désigne des données auxquelles n’importe qui peut accéder, que tout le monde peut utiliser ou partager. Les critères essentiels de l’ Open Data sont la disponibilité, la réutilisation et la distribution, et la participation universelle. Il s’agit là de la définition donnée par l’Open Knowledge Foundation en 2005.

  • Disponibilité et accès : Les données doivent être pleinement accessibles, moyennant un coût de reproduction raisonnable. De préférence, elles doivent pouvoir être téléchargées sur Internet. La forme doit être confortable et modifiable.
  • Réutilisation et redistribution : Les données doivent être fournies sous des conditions permettant la réutilisation et la redistribution, incluant le mélange avec d’autres ensembles de données.
  • Participation universelle : Tout le monde doit être en mesure d’utiliser, de réutiliser et de redistribuer les données. Il ne doit y avoir aucune discrimination concernant les fins d’utilisation, ou contre des personnes ou des groupes. Par exemple, des restrictions non commerciales qui empêchent l’utilisation commerciale, ou les restrictions d’usage à certains secteurs, ne sont pas compatibles avec l’Open Data.

Ces trois critères sont l’essence de l’Open Data, car ils autorisent l’interopérabilité. L’interopérabilité désigne la capacité de différentes entreprises ou systèmes à travailler ensemble. En l’occurrence, l’interopérabilité est la capacité de mélanger différents ensembles de données.

L’interopérabilité, essence de l’ Open Data

Cette interopérabilité est importante, car elle permet à différents composants de fonctionner ensemble. C’est ce qui permet de créer des systèmes larges et complexes. Sans interopérabilité, c’est tout simplement impossible. On peut prendre pour exemple le mythe de la Tour de Babel. Dans cette légende, la communication impossible empêche complètement la construction de la tour.

Dans le cas des données, la mise en commun repose sur la possibilité de mélanger librement ces données. Cette interopérabilité est essentielle pour tirer des bénéfices de l’ouverture. Il est ensuite possible de développer des produits et des services en plus grande quantité, et d’une meilleure qualité.

Des données en provenance de tous les secteurs

open-data-secteurs

Le terme Open Data peut s’appliquer à des informations en provenance de n’importe quelle source, sur n’importe quel sujet. Tout un chacun peut proposer des données sous licence ouverte pour un usage gratuit afin que le public en tire un bénéfice. La plupart du temps, les données ouvertes proviennent du gouvernement et du secteur public. Il s’agit généralement de budgets, de cartes, ou de résultats découlant de recherches scientifiques. Cependant, les entreprises, les universités, les ONG, les startups, les fondations caritatives, les communautés ou les individus peuvent également proposer des Open Data.

On retrouve des informations ouvertes dans les secteurs du transport, de la science, des produits, de l’éducation, de l’environnement, de la cartographie, des bibliothèques, de l’économie, de la culture, du développement, des affaires, du design ou de la finance. Le terme s’applique également aux données (y compris les Big Data) et au contenu comme les images, le texte et la musique.

En règle générale, les Open Data sont uniquement des données non personnelles. C’est-à-dire que ces données ne comportent aucune information sur des individus, pour des raisons évidentes de respect de la vie privée.

Ouverture légale et technique

Selon l’Open Definition, les Open Data doivent être ouvertes légalement, et techniquement. L’ouverture légale signifie que l’accès aux données est légal, au même titre que l’exploitation, le partage et la modification. En général, cette légalité est obtenue par une licence prévue à cet effet, autorisant l’accès libre et la réutilisation, ou plaçant les données dans le domaine public.

L’ouverture technique signifie qu’il ne doit y avoir aucune barrière technique à l’utilisation des données. Par exemple, imprimer les données sur du papier rend très difficile l’accès aux données. Les données doivent donc être lisibles par une machine et pleinement accessibles.

Les Open Data doivent être utilisables par n’importe qui, peu importe quand, où, ou ce que la personne compte faire de ces données. Il ne doit y avoir aucune restriction, y compris à des fins commerciales. Les données doivent être accessibles sans charge financière, au format numérique, et téléchargeables sur internet. Elles doivent pouvoir être aisément traitées par un ordinateur, sans quoi les usagers ne peuvent exploiter pleinement le pouvoir de ces données en les combinant avec d’autres.  

Toujours selon l’Open Definition, il n’est pas possible de placer des conditions sur l’utilisation des Open Data, cependant, un fournisseur de données peut exiger que les utilisateurs le créditent et précisent si les données ont été modifiées, et que les nouveaux ensembles de données obtenus en utilisant ces données soient également partagés de façon ouverte.

Open Definition

open-knowledge-foundation

Depuis 2007, l’Open Definition est gouvernée par un Advisory Council. Ce groupe est chargé de maintenir et de développer la définition officielle et le matériel qui y est associé. Sa mission est d’étendre l’Open Definition pour le bénéfice général de la communauté. Sa responsabilité est de décider quelles licences entrent dans le cadre de l’Open Definition.

Le Conseil est géré par la communauté. De nouveaux membres peuvent être admis à tout moment par les membres déjà en place. Ils sont sélectionnés pour leurs connaissances et leurs compétences démontrées dans le domaine d’influence du Conseil. Tout un chacun peut joindre la mailing-list de ce Conseil.

L’Open Definition fût créée en 2005 par l’Open Knowledge Foundation, avec la participation de nombreuses personnes. La définition est basée directement sur l’Open Source Definition de l’Open Source Initiative. La plupart des principaux principes appliqués aux logiciels open source ont été réutilisés et appliqués aux données et au contenu. Cette définition est disponible dans plus de 30 langages différents, grâce aux nombreux traducteurs de la communauté.

Cette Open Definition est actuellement proposée en version 2.1, depuis le 10 novembre 2015. La version 2.0, considérée comme la mise à jour la plus importante de l’histoire de ce texte, fût proposée en octobre 2014 suite à de nombreuses conversations entre experts de la communauté issus des domaines de l’open data, de l’open access, de l’open culture, de l’open education, de l’open government, et de l’open source. Tout en conservant les principes essentiels, cette mise à jour a apporté une nouvelle structure, une réécriture du texte et un nouveau processus pour l’attribution des licences.

Exemples d’utilisation

Les Open Data, et plus particulièrement les données gouvernementales, constituent une précieuse ressource. De nombreux individus et autres entreprises collectent différents types de données dans le but de mieux accomplir leurs tâches. Les gouvernements en particulier collectent d’immenses quantités de données centralisées, rendues publiques par la loi. Elles peuvent par la suite être utilisées par de nombreuses autres entités.

Ces données peuvent être utiles dans de nombreux secteurs, à divers groupes de personnes et autres organisations, dont les gouvernements eux-mêmes. Il est impossible cependant de prédire avec précision comment et dans quel domaine la valeur sera créée à l’avenir, même si de nombreux bénéfices ont déjà été dégagés des Open Data.

Gouvernement

Dans le cas des données gouvernementales, elles ont déjà permis une meilleure transparence et un contrôle démocratique accru. Elles ont augmenté le taux de participation, et donné davantage de pouvoirs aux individus. Des produits et services privés ont pu être améliorés ou créés. L’innovation a été propulsée par ces données. L’efficacité des services gouvernementaux a été améliorée. Enfin, de nouvelles connaissances ont été acquises en combinant différentes sources de données massives.

Voici quelques exemples pour ces différents domaines. En termes de transparence, des projets comme le « Tax Tree » finlandais ou le « Where does my money go » britannique permettent de voir comment l’argent des taxes est dépensé par le gouvernement. Au Canada, les Open Data ont permis de préserver 3,2 milliards de dollars contre la fraude fiscale. Différents sites internet, comme le site danois folketsting.dk, permettent de suivre l’activité du parlement et les processus de création de lois. Ainsi, les citoyens peuvent voir exactement ce qui advient et quels parlementaires sont impliqués. 

Société

Les Open Data gouvernementales aident également à prendre des décisions dans votre vie personnelle, ou à devenir plus actif dans la société. Au Danemark, une femme a créé findtoilet.dk, permettant de lister toutes les toilettes publiques danoises. Ainsi, les personnes ayant des problèmes de vessie peuvent s’aventurer à l’extérieur plus librement. Aux Pays-Bas, le service vervuilingsalarm.nl permet de recevoir un message si la qualité de l’air est en forte baisse dans un quartier. À New York, il est facile de savoir à quel endroit promener son chien, ou de rencontrer d’autres personnes qui se promènent au même endroit. Des services comme mapumental au Royaume-Uni ou mapnificent en Allemagne permettent de trouver un endroit où séjourner en fonction de la durée du séjour, du prix de location et de la beauté du quartier. Tous ces exemples reposent sur des Open Data gouvernementales. 

Économie

husetsweb

Économiquement, les Open Data sont également très importantes. Plusieurs études estiment la valeur économique de ces données à plusieurs dizaines de milliards d’euros dans l’Union européenne uniquement. les nouveaux produits et les entreprises recyclent les Open Data. Le site danois husetsweb.dk aide les utilisateurs à trouver des façons d’améliorer l’efficacité énergétique de leur domicile, notamment en planifiant les finances ou en trouvant des ouvriers capables de faire le travail. Ce service est basé sur des informations cadastrales, gouvernementales et locales. Google Traduction utilise les innombrables documents de l’UE traduits dans tous les langages européens pour développer ses algorithmes de traduction et améliorer son service. 

Culture et éducation

Les données ouvertes sont également précieuses pour les gouvernements eux-mêmes. Elles permettent par exemple d’améliorer l’efficacité du gouvernement. Le Ministère de l’Education hollandais a par exemple publié toutes ses données relatives à l’éducation sur internet. De cette manière, le nombre de questions reçues par le ministère a diminué, ce qui a permis de réduire la charge de travail et les coûts. Les fonctionnaires peuvent désormais répondre plus efficacement aux questions récentes, en accédant facilement aux données nécessaires. Toujours en Hollande, le département de l’héritage culturel ouvre l’accès à de nombreuses données et collabore avec des sociétés d’historiens amateurs et des groupes comme la Wikimedia Foundation pour exécuter leurs propres tâches plus efficacement. Ainsi, la qualité des données est améliorée, et le département est plus petit.

Santé

dr-snow-puits-londres

Il y a d’innombrables exemples de façons dont les Open Data créent déjà aujourd’hui une valeur économique et sociale, mais on ignore encore quelles nouvelles applications vont devenir possibles. Les nouvelles combinaisons de données peuvent créer un nouveau savoir et des informations pouvant mener à de nouveaux champs d’usage. Dans le passé, par exemple à Londres au XIXème siècle, Dr. Snow a découvert la relation entre la pollution de l’eau potable et le choléra, en combinant les données sur les morts liées au choléra et l’emplacement des sources d’eau. C’est ce qui a permis de créer les systèmes de purification de Londres, et d’améliorer grandement l’état de santé général de la population. Des découvertes de cette ampleur peuvent survenir grâce aux Open Data.

Pour exploiter ce potentiel, il faut transformer les données gouvernementales publiques en Open Data. Cependant, pour y parvenir, il faut supprimer les restrictions légales, financières ou technologiques afin d’ouvrir l’accès aux données à tout un chacun. Chaque restriction empêche les citoyens de réutiliser les données publiques, et rend plus complexe la tâche de trouver des façons utiles de le faire.

Bénéfices

Les bénéfices de l’Open Data sur l’économie et sur les citoyens ont été prouvés. Selon la Shakespeare Review, la valeur du secteur des données publiques du Royaume-Uni s’élève à 6,8 milliards de Livres sterling. De même, une étude datée de 2011 estime que le marché européen des données publiques connaîtrait une croissance de 40 milliards d’euros par an. De son côté, McKinsey estime qu’un marché mondial de l’Open Data créerait entre 3000 et 5000 milliards de dollars par an à travers sept secteurs différents.

citymapper

L’Open Data Institute estime le chiffre d’affaires annuel combiné des entreprises anglaises dirigées par l’Open Data à 92 milliards de Livres Sterling. Ces entreprises embauchent par ailleurs plus de 500 000 personnes. La seule industrie du transport à Londres est parvenue à dégager un retour sur investissement de 58 pour 1 en ouvrant l’accès ses données de transport. L’objectif était d’aider des leaders mondiaux, comme Citymapper, à voir le jour. Cette application mobile révolutionnaire, comme de nombreuses autres, est née grâce à l’ouverture des données.  Le Danemark quant à lui a généré un retour sur investissement de 70:1 en choisissant d’ouvrir l’accès public aux données postales.

Aux États-Unis, une entreprise d’Open Data a été vendue pour 930 millions de dollars. De même, les données Landsat ont permis d’économiser entre 350 millions et 456 millions de dollars par an. Chaque jour, 84%  des Américains possesseurs de smartphones utilisent une application de type Open Data

Des répercussions à toutes les échelles

Lorsque de grandes entreprises ou des gouvernements ouvrent l’accès à des données non-personnelles, cela permet aux petites entreprises, aux citoyens et aux chercheurs de développer des ressources offrant des améliorations cruciales pour leurs communautés.

L’Open Data permet d’améliorer le quotidien financièrement, socialement, culturellement et plus encore. Elle permet d’accéder plus facilement aux services de santé, et de découvrir plus efficacement de nouveaux traitements pour les maladies. Elle offre l’opportunité de mieux comprendre les gouvernements, et de voyager plus aisément. De nouvelles possibilités sont découvertes en permanence.

Inquiétudes et confusions

spectre-data

Beaucoup de personnes sont angoissées par la notion d’Open Data. Par exemple, le fait que les données médicales personnelles soient accessibles en Open Data est une source d’inquiétude. Cependant, il ne faut pas confondre les données commerciales et les données personnelles. Cette confusion est la source de réticences injustifiées.

La mauvaise compréhension vient du fait qu’un nombre croissant de personnes utilisent le terme Open Data pour évoquer des données accessibles au public. Toutes les données ouvertes sont accessibles au public, mais toutes les données accessibles au public ne sont pas ouvertes. Les données ouvertes ne doivent pas être soumises à des royalties, ni être relatives à une quelconque propriété intellectuelle.

Une confusion problématique

Cette définition confuse pose problème, notamment pour les gouvernements qui créent des lois autour des données. Le terme Open Data ne signifie pas qu’un gouvernement ou qu’une autre entité rend publiques toutes ses données. Il serait inconscient de délivrer toutes les données privées et personnelles des citoyens ou des consommateurs à n’importe qui.

En réalité, Open Data signifie que les données sont rendues publiques d’une manière spécifique permettant au public d’y accéder sans avoir à payer de frais ou à subir de restrictions. Par exemple, les données peuvent être proposées au format GTFS, gratuitement, sous une licence autorisant l’usage et la redistribution.

Cette mauvaise compréhension provoque naturellement la crainte concernant la confidentialité. Les gouvernements doivent proposer les données d’une manière permettant d’assurer un accès égal par tous les citoyens. Quiconque paye ses impôts doit pouvoir accéder aux données sans frais supplémentaires.

Les Open Data menacées par Donald Trump

Suite à l’investiture de Donald Trump, de nombreux spécialistes craignent que les nombreuses données ouvertes mises à disposition par le gouvernement Obama ne soient en danger. Donald Trump est considéré comme le Président le moins transparent dans l’Histoire des États-Unis, et il est peu probable qu’il se plie aux normes démocratiques à moins d’y être contraint par la loi.

Afin d’empêcher le nouveau gouvernement de modifier ou de supprimer les données au sujet du réchauffement climatique, l’Université de Toronto a récemment organisé un événement visant à copier les pages de données en ligne menacées par l’administration Trump. De nombreux groupes sont actuellement engagés dans cette démarche de sauvegarde.

Les données ouvertes en France

data-gouv

En France, le site data.gouv.fr permet à tout un chacun d’accéder librement aux données publiques pour les partager, les améliorer et les réutiliser. Cette plateforme officielle répartir les données ouvertes dans plusieurs catégories.

Ces catégories sont l’agriculture et l’alimentation, la culture, l’économie et l’emploi, l’éducation et la recherche, l’international et l’Europe, le logement, le développement durable et l’énergie, la santé et le social, la société, et les transports, tourisme et territoires. Grâce à cette catégorisation, les utilisateurs peuvent facilement sélectionner le domaine qui les intéresse.

Les données publiques sont, pour la plupart, fournies par les institutions publiques tels que les ministères, les établissements scolaires ou les collectivités territoriales. Il est très facile pour les usagers de mettre en ligne des données ou de partager leurs réutilisations. Les meilleures réutilisations sont mises en avant sur le site.

Cette plateforme a été créée dans le cadre de la mission Etalab, sous la responsabilité du Premier ministre au sein du SGMAP. Cette mission vise à accompagner l’ouverture des données publiques de l’Etat et des administrations.

Le site est destiné aux producteurs de données, aux réutilisateurs, et à tous les citoyens, associations et entreprises français. Le site répertorie plusieurs usages à ces données ouvertes. Elles peuvent permettre de répondre à des questions, de prendre des décisions, de bénéficier de services utiles au quotidien, et d’encourager la transparence démocratique.

Outre ce site, la mission Etalab organise également des événements tels que des Hackatons, des OpenData camps ou encore des conférences. Grâce à cette mission, tous les Français peuvent intégrer et participer activement à la communauté OpenData française.

Parallèlement à la mission Etalab, un autre acteur majeur de la communauté Open Data en France est l’association Opendata France. Créée en 2013, cette association cherche à soutenir les collectivités territoriales françaises dans leurs démarches d’ouverture des données.

Sa stratégie se regroupe en quatre points principaux. Elle cherche à regrouper les collectivités territoriales désireuses d’ouvrir l’accès à leurs données, à mutualiser les bonnes pratiques à adopter, à représenter ces collectivités auprès des instance nationales et des citoyens, et à favoriser les démarches d’ouverture des données.

Pour ce faire, les membres de l’association se rendent dans les rassemblements liés à l’Open Data à l’internationale et se chargent d’organiser la communication au sujet des données ouvertes françaises. Ils animent également des ateliers, des groupes de travail, et se chargent d’accompagner les collectivités.

Selon les statistiques publiées sur le site de l’association, on dénombre aujourd’hui 80 collectivités Open Data détentrices d’une licence Odbl. Plus de 19500 ensembles de données ont été publiés, et ont permis de développer 346 applications. 48 millions de citoyens ont été impactés par les réutilisations des données ouvertes.

Les Open Data en France sont également soutenues par des associations comme Regards Citoyens, Libertic, la Fondation internet nouvelle génération mais également le chapitre français de l’Open Knowledge Foundation. Dans le secteur privé, les entreprises peuvent aisément ouvrir leurs données grâce à la plateforme clé en main créée par OpenDataSoft. En 2012, la RATP a publié le plan du métro et les positions géographiques des stations en Open Data.

Le portail du service public de la donnée

Institué par la loi Lemaire pour une République Numérique d’octobre 2016, le portail du service public de la donnée a ouvert ses portes en avril 2017. Géré par Etalab, ce service est actuellement proposé en V1 et offre l’accès à 9 basées de données de référence. Ces neuf bases de données sont la base nationale d’adresses, la base des 9 millions d’entreprises françaises (Sirene), le code officiel géographique, le plan cadastral informatisé, le registre parcellaire, le référentiel de l’organisation administrative de l’Etat, le référentiel à grande échelle, le répertoire national des associations et le répertoire opérationnel des métiers et des emplois (Rome).

Selon Etalab, « sont qualifiées de données de référence celles qui font l’objet ou sont susceptibles de faire l’objet d’une utilisation fréquente par un grand nombre d’acteurs tant publics que privés et dont la qualité, en termes notamment de précision, de fréquence de mise à jour ou d’accessibilité, est essentielle pour ces utilisations ». Toutefois, ces 9 bases de données constituent un simple point de départ pour le service. Lors de sa consultation publique menée en fin d’année 2016, Etalab avait identifié 57 bases différentes avec l’aide de 160 contributions.

Selon Henri Verdier, directeur de la Dinsic, ce service sert à doter la France d’une infrastructure solide de diffusion et d’amélioration des données de référence. Les données de référence seront progressivement traitées comme des infrastructures critiques, et l’Etat s’organisera pour garantir une croissance de qualité, de diffusion, et la rétroaction effective des usagers pour une amélioration continue. Les administrations détentrices des jeux de données sont en charge de leur mise à disposition et doivent respecter des conditions de fiabilité, de disponibilité et de sécurité fixées par un arrêté du Premier ministre.

Conclusion

Malgré les problèmes engendrés par la confusion entre données publiques et données ouvertes, et les difficultés liées à l’établissement d’une définition précise et universelle de l’Open Data, les données ouvertes ont d’ores et déjà permis d’étendre considérablement le savoir et les connaissances. Un large bénéfice économique a également été dégagé, et devrait continuer à croître au fil des décennies à venir.

A lire également

ibm hortonworks hadoop

Hadoop : IBM abandonne sa distribution BigInsights pour vendre Hortonworks Data Platform

Le géant américain IBM vient de décider de mettre un terme à sa distribution Hadoop, …

Send this to friend