Accueil > Analytics > Data Warehouse (entrepôt de données) définition : qu’est-ce que c’est ?
data warehouse entrepot de données définition qu'est ce que c'est à quoi ça sert avantages

Data Warehouse (entrepôt de données) définition : qu’est-ce que c’est ?

Les Data Warehouse ou entrepôts de données sont des bases de données permettant de stocker des données historiques structurées non volatiles orientées sujet afin de les analyser. Découvrez la définition, les avantages, et les cas d’usage des Data Warehouses.

Une Data Warehouse est une base de données relationnelle pensée et conçue pour les requêtes et les analyses de données, la prise de décision et les activités de type Business Intelligence davantage que pour le traitement de transactions ou autres usages traditionnels des bases de données.

Les informations stockées dans la Data Warehouse sont historiques, et offrent une vue d’ensemble des différentes transactions qui ont eu lieu au fil du temps. Les données redondantes sont souvent incluses dans les Data Warehouses pour offrir aux utilisateurs plusieurs vues sur l’information. C’est la raison pour laquelle les données stockées dans la Warehouse sont souvent agrégées pour permettre aux utilisateurs d’y accéder plus facilement.

En plus d’une base de données relationnelle, un environnement Data Warehouse intègre un outil d’extraction, de transport, de transformation et de chargement de données (ETL). On retrouve aussi un moteur de traitement analytique en ligne (OLAP), des outils d’analyse client, et d’autres applications permettant de gérer le traitement des données collectées.

L’une des principales particularités d’une Data Warehouse est que les informations y sont classées par sujets (clients, produits…). De fait, ce qui définit réellement une Data Warehouse est le type de données qu’elle contient et les personnes qui l’utilisent.

Quels types de données sont stockées dans une Data Warehouse ?

Les données stockées dans une Data Warehouse présentent plusieurs spécificités. Elles sont séparées des systèmes opérationnels, mais aussi accessibles et disponibles pour les requêtes.

Ces données sont orientées sujet, et intégrées. Elles sont aussi nommées et définies de façon consistante. Par ailleurs, ces données sont associées à des périodes de temps définies. Enfin, elles sont statiques (non volatiles), ce qui signifie qu’aucune mise à jour n’est effectuée sur ces données.

data warehouse type données

Les quatre caractéristiques des Data Warehouses selon leur inventeur William H. Inmon

Selon William H. Inmon, l’inventeur du terme, les Data Warehouses présentent quatre caractéristiques spécifiques. Elles doivent être orientées sujet, intégrées, non volatiles et « time-variant ».

Les Data Warehouses doivent être orientées sujet, ce qui signifie qu’il doit être possible de les définir par leur sujet. Par exemple, une warehouse peut être déployée spécialement pour analyser les données liées aux ventes de l’entreprise. Cette Data Warehouse servira à répondre à des questions comme « quels ont été les meilleurs clients pour tel produit au cours de l’année précédente ».

Dans la même logique, la Data Warehouse doit être en mesure d’assembler des données en provenance de différentes sources dans un format consistant. Elles doivent permettre de résoudre les problèmes comme les conflits de noms et les incohérences en termes d’unités de mesure. On parle là d’intégration.

Troisièmement, les Data Warehouses doivent être non-volatiles. Cela signifie qu’une fois qu’une donnée est entrée dans la Warehouse, elle ne doit plus changer. L’utilisateur est ainsi en mesure d’analyser les données telles qu’elles ont été stockées dans la Warehouse.

Dernière caractéristique des Data Warehouses, elles doivent être time-variant. Celà signifique qu’elles permettent de focaliser les analyses sur les changements survenus au fil du temps à partir de larges ensembles de données, afin de découvrir des tendances. C’est ce qui oppose les Data Warehouses aux systèmes OLTP dont les données opérationnelles sont atomiques et ne reflètent que la valeur actuelle de la dernière transaction.

Quels sont les différents types de Data Warehouses ?

data warehouse types

On distingue quatre types de Data Warehouses : les systèmes de gestion de base de données (SGBD) relationnelles traditionnels, les SGBD relationnelles spécialisés, les Data Warehouses Appliances et les Data Warehouses Cloud. Les SGBD sont les Data Warehouses les plus courantes.

Dans la plupat des cas, on utilise un SGBD relationnel, mais il convient de noter que n’importe quel type de SGBD peut être utilisé. Dans la plupart des cas, un SGBD de Data Warehouse propose plusieurs fonctionnalités et caractéristiques additionnelles permettant de les utiliser efficacement pour les activités et opérations de Data Warehousing. Une plateforme Data Warehouse peut aussi embarquer des logiciels additionnels. On parle là de SGBD de vendeurs comme IBM, Microsoft, Oracle ou SAP.

Les SGBD spécialisées quant à elles se distinguent des SGBD traditionnels par la façon dont ellesont été améliorées pour pouvoir prendre en charge les workloads Data Warehouse. Ces produits sont proposés par des vendeurs comme HP et SAP.

Les Data Warehouses Appliances sont conçues pour délivrer des services de Data Warehousing clé en main directement. En général, ces produits combinent logiciel et matériel avec une SGBD relationnelle ou analytique préinstallée et configurée sur le hardware requis. Le serveur est configuré avec la bonne quantité de mémoire et de stockage, et le SGBD est installé par le vendeur. L’utilisateur se contente de brancher le matériel et de l’allumer. On peut citer comme exemple les produits de Teradata, IBM et Oracle.

Dans la dernière catégorie, celle des Data Warehouses Cloud, le SGBD n’est pas installé sur site. L’utilisateur y accède via internet. On parle là de « Data Warehouse en tant que Service », de la famille des XaaS. L’utilisateur n’a pas besoin de disposer d’un SGBD ou de matériel dédié sur site. Les leaders du marché des Data Warehouses cloud sont Microsoft, Amazon et IBM.

Précisons que l’on compte aussi de plus en plus de solutions hybrides intégrant diverses capacités de stockage et d’accès aux données pour les données structurées et non structurées. On peut citer les vendeurs Actian et Pivotal.

Par ailleurs, ces différents types de plateformes Data Warehouses peuvent être déployés de plusieurs façons : Enterprise Data Warehouse (EDW), Data Mart, ou une combinaison des deux.

Une EDW est utilisée à l’échelle d’une entreprise entière, tandis qu’un Data Mart est plus petit et focalisé sur les besoins individuels ou spécifiques à un département. De même, en fonction de la taille de l’entreprise, il est possible de créer plusieurs Data Marts et les intégrer avec une EDW.

Comment et pourquoi les entreprises utilisent les Data Warehouses ?

data warehouse utilisation entreprise cas d'usage

Grâce à l’Online Analyticial Processing (OLAP), les entreprises sont en mesure de dégager des insights de leurs opérations par le biais d’un accès interactif et itératif aux données stockées. Ceci permet aux responsables des entreprises d’améliorer les prises de décisions en effectuant des requêtes pour examiner les processus, les performances et les tendances de leurs entreprises.

Une Data Warehouse peut être utilisée pour suivre, gérer et améliorer les performances d’une entreprise. Elle peut être utilisée pour suivre et modifier une campagne marketing. On peut s’en servir pour passer en revue et optimiser la logistique et les opérations, ou pour améliorer l’efficacité du développement de produit.

Les entreprises utilisent aussi les Data Warehouses pour lier et accéder aux informations en provenance de sources multiples. Ces solutions permettent aussi de gérer et d’améliorer les relations clients. Les Data Warehouses peuvent permettre de prédire les futures tendances et besoins, et enfin d’améliorer la qualité des données.

Data Warehouses : quels sont les avantages ?

data warehouses avantages

Les Data Warehouses présentent de nombreux avantages. Pour les responsables informatiques, elles permettent notamment de séparer les processus analytiques des processus d’exploitation pour améliorer les performances dans ces deux domaines.

Pour les entreprises, une plateforme Data Warehouse est une façon pratique de visualiser le passé sans affecter les opérations quotidiennes. En effectuant des requêtes et des analyses de données au sein de la Data Warehouse, les entreprises peuvent améliorer leurs opérations et leur efficience, et ainsi augmenter leurs revenus et leurs bénéfices.

Data Warehouse vs Data Lake : quelles sont les différences ?

data warehouse vs data lake différences

Les Data Warehouses sont utilisées depuis près de 30 ans. Depuis peu toutefois, les Data Lakes gagnent en popularité à tel point que certains pensent qu’ils vont remplacer les Warehouses. En réalité, il convient de garder en tête que ces deux types de systèmes présentent d’importantes différences et ne sont pas utilisés de la même façon.

Une Data Warehouse rassemble une grande quantité de données accumulées au sein d’une entreprise en provenance de différentes sources de données. Elle est utilisée pour prendre des décisions. De son côté, le Data Lake est une banque de stockage servant à contenir une immense quantité de données brutes dans leur format d’origine jusqu’à ce que l’entreprise en ait besoin. Data Lakes et Data Warehouses se distinguent sur plusieurs points : les données, le traitement des données, le stockage, l’agilité, la sécurité et les utilisateurs.

Les Data Warehouses ne peuvent accueillir que des données structurées. Un Data Lake est capable de stocker des données structurées, semi-structurées, ou non structurées. En ce qui concerne le traitement des données, les données chargées dans une Data Warehouse doivent passer par l’étape du schema-on-write qui consiste à leur conférer une forme et une structure (un modèle). Dans le cas des Data Lakes, les données sont stockées sous leur forme brute et l’utilisateur leur donne forme en cas de besoin. C’est ce qu’on appelle le schema-on-read.

Le stockage dans une Data Warehouse peut être cher, surtout si le volume de données est large. Le stockage sur Data Lake revient souvent moins cher, car la plupart des technologies Big Data reposent sur des logiciels open source conçus pour être installés sur du matériel low-cost.

Une Data Warehouse est une banque de données structurée. Il n’est donc pas difficile techniquement de changer la structure. Cependant, ce processus peut prendre du temps en fonction des business processes qui y sont attachées. Contrairement à la Data Warehouse, le Data Lake n’a pas de structure. De fait, les Data Developers et Data Scientists peuvent aisément configurer et reconfigurer les modèles de données, les requêtes et les applications. Les Data Warehouses sont donc moins agiles.

En revanche, en termes de sécurité, les Data Warehouses profitent de leur ancienneté et de leur maturité. Les données sont moins sécurisées au sein d’un Data Lake, même si des progrès sont effectués dans ce domaine. La dernière différence entre Data Warehouses et Data Lakes sont les utilisateurs auxquels ils se destinent. Les Data Warehouses sont principalement utilisées par les responsables d’entreprises, tandis que les Data Lakes sont généralement utilisés par des Data Scientists dans des secteurs scientifiques.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Send this to a friend