Data Catalog définition : tout savoir sur les catalogues de données

Bastien L. 19 avril 2018 3 minutes de lecture Analytics, Data Analytics

Un Data Catalog est un emplacement centralisé où sont regroupées toutes les métadonnées des données stockées par une entreprise. Découvrez la définition précise du Data Catalog, son utilité, ainsi que ses fonctionnalités les plus indispensables.

Avec l’essor du Big Data et des entreprises data-driven, les sources de données se sont multipliées. De plus, les outils de reporting et d’analyse de données, ainsi que les bases de données, se sont simplifiés. Pour les entreprises, les avantages de cette évolution sont nombreux. Il est possible d’analyse les données en provenance de ces nombreuses sources pour les transformer en informations exploitables, et l’accès simplifié aux sources de données permet le self-service pour tous les employés.

Cependant, cette transformation implique aussi de nouveaux défis à relever. La sécurisation et la gouvernance des données sont devenues plus difficiles, d’autant que les entreprises doivent composer avec les nouvelles réglementations ur la protection et la confidentialité des données. Pour rappel, le RGPD entrera en vigueur dans l’Union européenne à partir du 25 mai 2018, et les entreprises qui ne s’y conforment pas devront payer une amende pouvant atteindre 20 millions d’euros. Dans ce contexte, il est devenu indispensable d’utiliser un Data Catalog.

Qu’est-ce qu’un Data Catalog, et à quoi ça sert ?

Comme son nom l’indique, un Data Catalog est un catalogue de données. Plus précisément, il s’agit d’un emplacement centralisé où sont regroupées les informations sur les données contenues dans une base de données : les métadonnées. Ainsi, les métadonnées telles que la structure, la qualité, la définition et l’utilisation d’une donnée sont facilement accessibles depuis un emplacement centralisé.

Le principal objectif du Data Catalog est de permettre à tous les utilisateurs d’accéder aux sources de données en self-service et de comprendre ces sources de données. Il permet aussi de minimiser le nombre de silos de données au sein de l’environnement data. Le Data Catalog permet aussi d’accélérer l’analyse et de la rendre plus précise.

Qui utilise le Data Catalog ?

Le Data Catalog est utilisé par trois types d’utilisateurs différents. Les Data Consumers (tels que les analystes de données), les Data Creators (tels que les architectes big data et les ingénieurs de base de données) et les curateurs de données (par exemple les gouverneurs de données).

Le Data Catalog permet à tous les utilisateurs (data analysts, data scientists, développeurs…) de découvrir et d’utiliser des sources de données, et surtout de les comprendre. C’est la raison pour laquelle il s’agit d’un élément indispensable au sein d’une entreprise data-driven.

Quelles sont les fonctionnalités essentielles d’un Data Catalog ?

Les différents Data Catalogs ne proposent pas tous les mêmes fonctionnalités. Toutefois, plusieurs fonctionnalités indispensables doivent faire figure de critères lors de votre choix d’un Data Catalog.

On peut notamment citer la population automatisée du catalogue. Sans cette fonctionnalité, le scanning et le chargement de métadonnées en provenance de milliers de sources de données différentes devront être effectués manuellement. Les meilleurs Data Catalogs utilisent l’intelligence artificielle et le Machine Learning pour l’auto-population.

Un Data Catalog doit aussi proposer des fonctionnalités de crowdsourcing pour l’évaluation des sources de données, l’ajout de commentaires et d’informations sur les ensembles de données, et le passage en revue des étiquettes. Les catalogues reposant sur l’intelligence artificielle doit pouvoir apprendre des modifications effectuées par les humains pour améliorer le tagging automatique.

Le Data Catalog doit aussi être en mesure d’assurer la mise à jour automatique des métadonnées et des étiquettes. Il doit, de préférence, être nativement développé sur des technologies Big Data comme Spark ou Solr pour pouvoir s’adapter à la quantité de données de l’entreprise. Il doit pouvoir gérer une large variété de types de sources de données (relationnelles, semi-structurées, non-structurées) qu’elles proviennent du cloud ou d’une infrastructure sur site.