Apache Iceberg : comment Netflix va transformer l’analyse de données cloud ?

Karelie R. 4 janvier 2023 3 minutes de lecture Cloud computing

Apache Iceberg est un format de table ouvert développé par Netflix pour les charges de travail analytiques à grande échelle. L’initiative promet de changer l’analyse de données en cloud computing.

Apache Iceberg est apparu en 2022 comme une technologie à surveiller. Cette dernière aide à résoudre les problèmes d’intégration, de gestion et de coûts des données. Elle prend en charge les moteurs de requête tels que Spark, Trino, Flink, Presto, Hive et Impala. Cette décision promet d’aider les organisations à apporter le moteur d’analyse de leur choix à leurs données. Et ce, sans passer les inconvénients d’un déplacement vers un nouveau magasin de données.

Apache Iceberg au centre du lac de données

Les tables Apache Hive ont posé des problèmes de performance et d’utilisation dans les environnements de lacs de données importants et exigeants. L’équipe de données de Netflix a élaboré une spécification pour Iceberg. Apache Iceberg est un format de tableau pour les données à évolution lente ou à changement lent. Il a été développé chez Netflix par Ryan Blue et Dan Weeks, désormais cofondateurs d’Iceberg.

Iceberg se trouve au milieu d’un marché important et en pleine croissance. En effet, on estime que les lacs de données représentaient à eux seuls 11,7 milliards de dollars en 2021. Ils devraient atteindre 61,07 milliards de dollars en 2029.

Selon Bue R. de Netflix, Iceberg offre des fonctionnalités impressionnantes. Les requêtes peuvent remonter le temps, les transactions sont sécurisées et les requêtes ne trompent jamais. En outre, le partitionnement (disposition des données) se fait automatiquement et peut être mis à jour.

Mais cela a également des répercussions sur les entrepôts de données, a-t-il ajouté. « Iceberg a été construit sur l’hypothèse qu’il n’y a pas de couche de requête unique. Au contraire, de nombreux processus utilisent les mêmes données sous-jacentes et se coordonnent grâce au format de table et à un catalogue très léger. Iceberg fournit l’accès direct aux données nécessaire à tous ces cas d’utilisation sans compromettre le comportement SQL des entrepôts de données. »

Des acteurs majeurs ont choisi de s’installer sur Iceberg

Sudhir Hasbe, directeur principal de la gestion des produits chez Google Cloud, a déclaré qu’Iceberg est en train de devenir le « format de référence ». Il a ajouté que Cloudera et Snowflake prennent désormais en charge Iceberg. Tandis que Google a conclu un partenariat avec Salesforce sur le format de table Iceberg. D’autres acteurs majeurs – dont Databricks et Dremio – se sont lancés sur Iceberg.

Cloudera a annoncé en juillet 2022 son adoption du format de table ouvert Iceberg. Selon Chris Royles, Field CTO chez Cloudera, depuis son développement initial, Iceberg a connu une adoption régulière avec l’augmentation des contributions de différentes organisations. Les fournisseurs ont toutefois commencé à s’y intéresser au cours de l’année écoulée.

« Il a beaucoup de capacités, et pourtant il reste très simple », a-t-il déclaré. « Il s’agit là d’une bibliothèque client. Celle-ci peut être associée à n’importe quel type d’application client, qui devient alors capable de gérer le format de table Iceberg. Le résultat se traduit par une réduction du coût du transfert des données, ainsi que par une amélioration du débit et des performances », a expliqué M. Royles.

Le succès de Snowflake

James Malone, chef de produit senior chez Snowflake, a déclaré à El Reg que le stockage offert par Google, AWS et Azur est durable et peu coûteux. Toutefois, il peut présenter des difficultés lorsqu’il s’agit d’analyser les performances.

Snowflake soutient l’idée qu’Iceberg est un système agnostique en termes de format de fichier et de moteur d’analyse. Il s’agit là d’un changement important dans la manière dont les clients interagissent.

Le premier et le plus petit mouvement concernent l’idée des portails. Lorsque des fichiers ont été importés dans un portail, le système stocke des métadonnées sur ces fichiers. Un schéma est appliqué en lecture lorsqu’une requête a été exécutée sur une table. « Cela permet de projeter une table au-dessus d’un ensemble de données qui est géré par un autre système », a-t-il déclaré. « Les tables externes permettent non seulement d’interroger les données dans Snowflake, mais aussi d’utiliser des outils de partage de données et de gouvernance. »

Mais le plus grand changement de Snowflake concerne son projet de créer un tout nouveau type de table à l’intérieur de Snowflake. Il a été configuré pour avoir la même fonctionnalité et les mêmes performances qu’une table Snowflake standard. Cependant, il utilise les Parquets comme format de données et Iceberg comme format de métadonnées. Plus important encore, il permet aux clients d’apporter leur propre stockage à Snowflake au lieu que Snowflake gère le stockage pour eux. Cela peut représenter un coût important dans la configuration de l’analyse.