etl définition

ETL Extract Transform Load : qu’est-ce que c’est, à quoi ça sert ?

ETL est un acronyme qui désigne les termes  » Extract Transform Load « . Il s'agit d'un type de logiciel permettant de collecter des données en provenance de sources multiples pour ensuite les convertir dans un format adapté à une Data Warehouse et les y transférer. Découvrez tout ce que vous devez savoir à ce sujet.

Un logiciel ETL (Extract Transform Load) permet d'extraire des données brutes depuis une base de données, pour ensuite les restructurer, et enfin les charger dans une Data Warehouse. Ces logiciels existent depuis bien longtemps, mais ont beaucoup évolué pour répondre aux nouveaux besoins liés à l'essor du , des SaaS (logiciels en tant que service) et du .

Désormais, les ETL doivent permettre l'ingestion en temps réel, l'enrichissement de données, la prise en charge de milliards de transactions. Ils prennent aussi en charge les données structurées ou non structurées en provenance de sources sur site ou sur le Cloud. De même, ces plateformes doivent désormais être scalables, flexibles, résistantes aux pannes, et sécurisées.

ETL : qu'est-ce que c'est ?

etl histoire

Les premiers ETL ont fait leur apparition dans les années 1970. Les grandes entreprises ont commencé à agréger et à stocker des données de différents types en provenance de multiples sources. Ces logiciels sont nés pour répondre au besoin d'intégrer ces données diverses.

Lors de l'essor des Data Warehouses dans les années 1980, la plupart des entrepôts de données n'étaient compatibles qu'avec un ETL spécifique. Les entreprises étaient donc forcées d'en utiliser un grand nombre.

Au fil du temps, le nombre de sources et de types de données a augmenté, au même titre que le nombre de vendeurs ETL. Ceci a permis de faire baisser les prix, jusqu'à ce que ces solutions soient accessibles à la plupart des entreprises. Ainsi, ces outils ont contribué à l'émergence des entreprises  » data-driven « .

ETL : comment ça marche ?

etl fonctionnement

Pour comprendre comment fonctionnent les solutions d'ETL, prenons l'exemple d'une entreprise qui vend à la fois des produits en boutique physique et sur le web. Cette entreprise a besoin d'analyser simultanément toutes les tendances de ventes.

Cependant, les données collectées en ligne et en magasin ne seront peut-être pas au même format. De plus, les systèmes de collecte de données ne seront peut-être pas en mesure de communiquer entre eux. Le rôle d'un logiciel ETL est de collecter les données pertinentes en provenance des deux systèmes, de les transformer pour les rendre compatibles avec la Data Warehouse, et enfin de les charger dans la Data Warehouse.

Le fonctionnement de la plateforme ETL se décompose en trois phases. La phase d'Extraction consiste à collecter les données en provenance d'une ou plusieurs sources.

La phase de transformation consiste à reformater et à transformer les données. Enfin, la phase de chargement (loading) consiste à transférer les données transformées vers la Data Warehouse, le Data Store ou la base de données cible.

ETL : à quoi ça sert ?

Les ETL ont de multiples cas d'usage. Leur utilité première est de transformer les données pour les transférer vers les Data Warehouses, mais ils peuvent aussi être utilisés pour transférer des données en provenance de systèmes anciens vers des systèmes modernes dont les formats de données sont différents.

A l'ère du Big Data, de l'internet des objets, des réseaux sociaux, des vidéos ou de l'Open Data, les ETL s'adaptent aussi aux nouveaux types et sources de données. De même, les outils modernes permettent de transférer des données directement vers la plateforme . Certaines solutions modernes proposent aussi une approche self-service, des outils dédiés à la Data Quality, ou encore une prise en charge des métadonnées.

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *