data virtualization

Data Virtualization : qu’est-ce que la virtualisation de données ?

La Data Virtualization ou virtualisation de données permet d’intégrer des données en provenance de sources diverses. Cette technique simplifie l’accès aux données et leur analyse. Découvrez tout ce que vous devez savoir : fonctionnement, cas d’usage, meilleurs outils…

Les données offrent de nombreuses opportunités pour les entreprises, mais aussi de nombreux défis. Ces données proviennent de multiples sources, et présentent différentes formes. On distingue les données structurées et les données non structurées.

Toutes ces informations sont stockées à différents emplacements, dans des bases de données, des applications SaaS ou des plateformes CRM. Il peut donc être difficile de gérer le Big Data, et de profiter d’une vue d’ensemble sur les données.

Qu’est-ce que la Data Virtualization ?

L’une des solutions à ce problème est la  » Data Virtualization « , ou virtualisation de données. Elle permet de manipuler les données et de les retrouver même sans savoir où elles sont stockées où dans quel format.

Selon la Data Management Association,  » la Data Virtualization permet d’accéder et de visualiser les bases de données distribuées et les multiples Data Stores hétérogènes comme une base de données unique. Plutôt que d’effectuer une ETL sur les données de façon physique à l’aide de moteurs de transformation, les serveurs de Data Virtualization effectuer l’extraction, la transformation et l’intégration virtuellement « .

Les données en provenance de multiples sources disparates peuvent être intégrées, sans avoir besoin de les copier ou de les déplacer en stockant uniquement les métadonnées. La Data Virtualization ne réplique pas les données en provenance des bases de données, data stores ou autres systèmes source. Elle consiste à stocker les métadonnées pour offrir une vue d’ensemble.

Les utilisateurs profitent ainsi d’une couche virtuelle unique couvrant plusieurs applications, formats et emplacements physiques. L’accès aux données s’en trouve simplifié et accéléré. La Data Virtualization permet de mettre un terme au problème des silos de données et des différences de formats.

Les données peuvent être collectées et traitées en temps réel, afin de gagner en vitesse et en agilité. la virtualisation de données est donc un précieux atout pour le Data Mining, l’analyse de données prédictive, ou encore le Machine Learning et l’intelligence artificielle.

Comment fonctionne la Data Virtualization ?

Un logiciel de Data Virtualization se présente comme un middleware (logiciel tiers) permettant d’intégrer virtuellement les données stockées sur différentes sources et sous différents formats. Une telle plateforme permet aux utilisateurs autorisés d’accéder à toutes les données d’une entreprise à partir d’un point d’accès unique.

Ils n’ont donc plus à se soucier de savoir si les données sont entreposées sur un serveur physique, une Data Warehouse ou un Data Lake sur site ou le Cloud. De manière générale, l’accès aux données et leur utilisation sont donc fortement simplifiés.

Le logiciel de virtualisation de données agrège des sources de données structurées et non structurées pour une visualisation virtuelle via un tableau de bord ou un outil de dataviz. Il permet la  » découverte  » des métadonnées, mais dissimule la complexité liée à l’accès à différents types de données issues de différentes sources.

Il n’est pas question de répliquer les données à partir de leurs systèmes sources, mais uniquement de stocker les métadonnées et la logique d’intégration pour permettre de les visionner.

À quoi sert la Data Virtualization ?

La Data Virtualization permet de simplifier le Big Data grâce à l’abstraction et à la fédération de données. Elle permet d’intégrer facilement les données en provenance de plateformes comme Hadoop ou les bases de données NoSQL, tout en supprimant leur complexité.

La virtualisation de données permet de réduire les coûts de stockage et de maintenance de données, puisqu’il n’est plus nécessaire de les répliquer ou de les transformer dans différents formats. Elle facilite aussi l’interaction entre les données en provenance de sources hétérogènes, structurées ou non structurées.

La gestion centralisée offre aussi une meilleure gouvernance des données, puisqu’il est possible d’appliquer des règles à toutes les données depuis une plateforme centralisée. Enfin, la virtualisation de données permet de tester et de déployer plus facilement des applications data-driven, puisqu’il est possible d’intégrer les sources de données plus rapidement. La productivité s’en trouve accrue.

Cas d’usage et applications

De manière générale, la Data Virtualization consiste à simplifier l’accès aux données en provenance de sources diverses par le biais de tableaux de bord ou autres outils de visualisation. Ses cas d’usage sont donc très nombreux.

Le cas d’usage le plus courant est l’intégration de données. Toutes les entreprises ont aujourd’hui des données en issues de nombreuses sources différentes, et l’intégration entre ces données est donc devenue indispensable.

Il peut s’agir par exemple d’établir une passerelle entre une vieille base de données stockée sur un serveur local et de nouveaux systèmes numériques comme les réseaux sociaux. Différentes connexions peuvent être utilisées telles que Java DAO, ODBC, SOAP ou d’autres APIs.

Un autre intérêt de la Data Virtualization est la création d’une Data Warehouse logique. Elle se distingue d’une Data Warehouse physique sur plusieurs points. Les données ne sont pas stockées sur une telle plateforme.

Elles restent à la source, qui peut d’ailleurs être une Data Warehouse traditionnelle. Toutes les sources de données sont fédérées et la Warehouse logique fait office de plateforme unique permettant l’intégration à l’aide de divers services et APIs.

En outre, la Data Virtualization est étroitement liée au Big Data et à l’analyse prédictive. En permettant d’intégrer des données en provenance de nombreuses sources hétérogènes, la virtualisation de données facilite leur analyse.

Cette pratique peut aussi se révéler très utile pour les centres d’appel ou les services clients. La Data Virtualization met un terme aux silos de données, et permet donc l’accès à toutes les bases de données de l’entreprise depuis un point d’accès unique.

À l’inverse, la virtualisation de données permet aussi d’isoler certaines sources de données afin d’y limiter l’accès. Ceci peut se révéler très utile pour préserver la confidentialité des informations les plus sensibles, notamment pour des raisons de confidentialité ou de conformité.

Data Virtualization vs Data Federation : des concepts à ne pas confondre.

La Data Virtualization est souvent confondue, à tort, avec un autre concept : la Data Federation. La fédération de données est une autre technologie dont le but est d’agréger des données hétérogènes en provenance de sources disparates et de les visionner à partir d’un point d’accès unique.

La virtualisation de données peut avoir le même objectif, mais consiste simplement à dissimuler les informations techniques sur les données. La fédération de données n’est donc que l’une des possibilités offertes par la virtualisation.

Un autre concept souvent confondu avec la Data Virtualization est celui de la Data Vizualisation. Cette pratique consiste à afficher les données sous forme de graphiques, de diagrammes, de cartographies ou de rapports. Or, un outil de virtualisation fournit les données aux outils de visualisation, mais n’est pas conçu spécifiquement et uniquement pour la visualisation.

De même, la technologie de Data Virtualization peut être utilisée dans l’architecture d’une Data Warehouse logique, mais il ne s’agit pas d’un synonyme. La Data Warehouse logique est une architecture reposant sur de nombreux composants, et la Data Virtualization est une technologie aux cas d’usage multiples.

Enfin, le terme de  » virtualization  » peut créer l’ambiguïté. La virtualisation de données ne doit pas être confondue avec le stockage de données virtualisé, proposé par les logiciels de base de données virtuelles ou les solutions de virtualisation de hardware de stockage. Ces solutions n’offrent pas les capacités d’intégration de données en temps réel et les services de données entre les sources disparates.

Les outils de Data Virtualization

Il existe une large variété de plateformes de Data Virtualization, conçues pour unifier différentes sources de données disparates. Ces diverses solutions se distinguent par les méthodes employées pour parvenir à ce but commun.

Certaines références du marché ont aujourd’hui disparu, à l’instar de Cisco qui a revendu son produit de Data Virtualization à TIBCO en 2017. De son côté, IBM est entré sur le marché en 2014, mais a depuis cessé de vendre son produit SmartCloud Data Virtualization.

Parmi les produits les plus connus, on peut citer DataCurrent, spécialisé sur les données stockées dans des dépôts NoSQL, les services Cloud et les données d’applications. Elle propose aussi des outils de Business Intelligence pour se connecter à ces différentes sources.

De son côté, Denodo se spécialise sur les données en temps réel. Son outil a l’avantage d’être facile à apprendre et à utiliser.

Le géant des bases de données, Oracle, propose son Data Service Integrator. Il s’agit d’un puissant intégrateur de données compatibles avec les différents produits de la firme.

Récemment racheté par IBM, Red Hat propose sa solution JBoss Data Virtualization. Il s’agit d’un outil écrit en Java optimisé pour les interfaces JDBC.

Le SAS Federation Server, quant à lui, accorde une priorité à la sécurité des données. Enfin, TIBCO Data Virtualization se démarque par la possibilité de connecter une large variété de sources de données.

Pin It on Pinterest