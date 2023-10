Microsoft renforce les capacités de HDInsight avec une refonte totale. La firme envisageait depuis un moment la modernisation de son stack data sur le cloud.

Le géant américain de l’informatique lançait la semaine dernière la démo de la nouvelle version de son stack data sur le cloud. En effet, HDInsight a subi une refonte totale. Le service cloud d’analyse s’appuie sur trois infrastructures open source. Ce qui lui permet de prendre en charge trois types de clusters.

Notons que ces infrastructures open source sont :

Apache Spark – plateforme d’analyse, d’ingénierie de données et d’apprentissage automatique

– plateforme d’analyse, d’ingénierie de données et d’apprentissage automatique Apache Flink – infrastructure pour le streaming et le traitement des données par lots

– infrastructure pour le streaming et le traitement des données par lots Trino – moteur de requête pour les lacs de données analytiques et les requêtes fédérées

D’autre part, la plateforme Azure Kubernetes Services propose la démo de la nouvelle version de HDInsight. Le stack data fonctionne donc avec des technologies de conteneurs, au lieu des machines virtuelles. Notons que cette configuration fluidifie le processus de provisionnement des clusters individuels à la suite de la mise en place d’un pool de nœuds.

Les lacunes de HDInsight justifiant cette refonte totale

La domination du projet open source Apache Hadoop a marqué le début de l’ère du Big Data. Microsoft lançait, à cette époque, HDInsight qui était alors une collaboration avec Hortonworks. Peu après son lancement, le service bénéficiait de l’ajout de nouvelles plateformes open source, notamment Apache Spark, Hive LLAP, HBase et Kafka.

Le stack data sur le cloud offrait des performances assez satisfaisantes. Mais au fil du temps, il se dirigeait lentement et inévitablement vers l’obsolescence.

Par ailleurs, le service a beaucoup souffert des sorties de Databricks, Synapse Analytics et du récent lancement de Fabric. Notons que ces plateformes reposent toutes sur Apache Spark, mais fournissent des outils plus sophistiqués et une prise en main plus facile.

Rappelons qu’en 2019, Hortonworks fusionnait avec Cloudera. Microsoft ne pouvait plus baser son stack data sur la très performante Hortonworks Data Platform. D’autre part, le géant américain de l’informatique a fait l’erreur de ne pas doter son service des derniers frameworks open source, pourtant très populaires.

Vers une coexistence coopérative des deux HDInsight ?

La modernisation de HDInsight par une refonte totale semble ne pas viser l’abandon de l’ancienne version. Les deux modèles sont même assez complémentaires.

L’intégration de Trino offre plusieurs options de connexion. Notons que l’infrastructure prend en charge la connectivité et les requêtes fédérées sur diverses sources de données backend. Cela donne la possibilité au stack data de se connecter et de s’intégrer à plusieurs autres services de données sur Azure :

SQL Database

PostgreSQL

Database for MySQL

Synapse Analytics

MariaDB

Par ailleurs, la capacité de Power BI à se connecter à Trino optimise l’intégration de bout en bout. La complémentarité de l’ancienne et de la nouvelle version est plutôt positive. Toutefois, la grande interrogation reste à savoir comment simplifier la coexistence du nouveau service avec Synapse Analytics et Fabric.

Si les deux versions peuvent prendre en charge la même charge de travail, les utilisateurs auront probablement du mal à s’y retrouver. Dans ce cas de figure, Microsoft devra les orienter vers la version appropriée en fonction de leurs besoins.