databricks record data warehouse

Databricks bat le record mondial de performances de Data Warehouse

Databricks vient de battre le record de performances de Data Warehousing, grâce à sa plateforme de Data Lakehouse. Une victoire qui risque de causer du tort à son grand rival Snowflake et remet en question le futur des Warehouses…

Lors de l'analyse de données, les performances et la vitesse sont cruciales au même titre que le coût. Ceci concerne également tous les workloads de . Par conséquent, les fournisseurs de plateformes et d'outils cherchent sans cesse des pistes d'amélioration pour repousser les limites.

L'entreprise Databricks, basée à San Francisco, annonce avoir battu le record mondial de performances de Data Warehouse. Sa plateforme Databricks SQL, permettant aux utilisateurs de gérer une architecture de lakehouse multicloud, a atteint des performances 2,2 fois supérieures au précédent record.

L'ancien record était détenu par le système du géant chinois Alibaba. Toutefois, Databricks l'a surpassé au benchmark TPC-DS de 100 terabytes. Ce benchmark est créé par l'organisation Transaction Processing Performance Council afin de mesurer les performances des Data Warehouses. En plus de battre le record d'Alibaba, Databricks a réduit le coût total du système de 10%.

Une victoire pour Databricks face à son rival Snowflake

Suite à ce nouveau record, la bataille entre les Data Warehouses et les Data Lakes risque de s'intensifier. Plus particulièrement, Databricks entretient une rivalité de longue date avec Snowflake.

À l'origine, Databricks développait un Data Lake. Elle a ensuite ajouté des fonctionnalités de Data Warehouse à sa plateforme. À l'inverse, Snowflake a commencé comme une Data Warehouse et a ensuite ajouté des fonctionnalités de Data Lake.

Le Barcelona Supercomputing Center a également comparé les performances de Databricks et Snowflake. Selon cet organe indépendant, Databricks est 2,7 fois plus rapide et nettement moins cher que Snowflake sur un même workload.

Selon Databricks,  » traditionnellement, la complexité de maintenir deux stacks de données séparés entraînait des dépassements de coûts, des duplications de données et des problèmes de gouvernance. Ces résultats de benchmarking démontrent qu'une plateforme lakehouse peut résoudre ces problèmes sans pour autant sacrifier les performances de Data Warehouse « .

C'est la première fois qu'un Data Lake est plus performant sur une fonction traditionnellement réservée aux Data Warehouses. Un cap est franchi, et Databricks estime que ce succès pourrait signer la fin des Data Warehouses telles que nous les connaissons aujourd'hui.

Les Data Lakehouses vont-ils remplacer les Data Warehouses ?

Le CEO de Databricks, Ali Ghodsi, prédit que  » sur le long terme, les Data Warehouses seront remplacées par des Data Lakehouses « . Ce remplacement ne se fera pas en un jour, et les deux types de plateformes coexisteront pendant plusieurs années. Ce record prouve cependant que toutes les tâches de Data Warehousing peuvent être effectuées directement dans un Lakehouse.

L'avantage est qu'il est aussi possible d'effectuer des tâches de Machine Learning, de Data Science et de traitement en temps réel sur le Lakehouse. Le chef d'entreprise s'attend aussi à une croissance rapide de l'écosystème autour des Data Lakehouses grâce aux systèmes et standards open source.

C'est une victoire majeure pour Databricks, dont la Lakehouse Platform est exploitée par plus de 5000 entreprises dans le monde. Cette architecture permet de prendre en charge n'importe quel workload de données, du warehousing à la Data Science en passant par le Machine Learning.

Il ne s'agit que d'un début, et la firme annonce d'importantes améliorations concernant notamment la simplicité d'utilisation et la gouvernance. D'ici là, il est probable que Snowflake cherche à prendre sa revanche…

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *