Accueil > Analytics > Data Analytics > Snowflake : tout savoir sur la première Cloud Data Warehouse
snowflake tout savoir

Snowflake : tout savoir sur la première Cloud Data Warehouse

Snowflake développe la première  » Cloud Data Warehouse  » permettant de combiner la puissance d’une Data Warehouse avec la flexibilité du Cloud. Découvrez tout ce que vous devez savoir à son sujet.

Pour stocker et analyser leurs données, de nombreuses entreprises utilisent des Data Warehouses. Malheureusement, les entrepôts de données  » sur site  » présentent plusieurs inconvénients. Elles s’avèrent bien souvent complexes, coûteuses, mal sécurisées et peuvent empêcher l’entreprise de s’adapter à sa croissance. Pour remédier à ce problème, Snowflake propose la première  » Cloud Data Warehouse « .

Snowflake : qu’est-ce que c’est ?

Il s’agit d’une Data Warehouse proposée sous la forme d’un SaaS (logiciel en tant que service). Cela signifie que l’utilisateur n’a pas besoin de choisir, d’installer, de configurer ou de gérer de hardware, ni d’installer, de configurer ou de gérer de logiciel. La maintenance, la gestion et la configuration sont entièrement prises en charge par Snowflake.

Tous les composants sont exécutés sur une infrastructure de Cloud public. Les calculs sont effectués sur des instances virtuelles, et le stockage de données est assuré par le service de stockage de Snowflake.

Cette Cloud Data Warehouse n’est pas basée sur une base de données existante ou sur une plateforme logicielle comme Hadoop, mais sur un nouveau moteur de base de données SQL reposant sur une architecture spécialement conçue pour le Cloud.

Snowflake : une architecture hybride qui fait toute la différence

snowflake architecture

Le principal point fort de Snowflake est son architecture brevetée. Il s’agit d’une architecture hybride entre les architectures de bases de données traditionnelles à disque partagé, et les architectures de base de données  » shared-nothing « .

Ainsi, tout comme sur une architecture de disque partagé, Snowflake utilise un répertoire de données central pour les données persistantes accessibles depuis tous les noeuds de calcul de la Data Warehouse. Cependant, comme dans le cas des architectures  » shared-nothing « , les requêtes sont traitées par le biais de clusters de calcul de traitement massivement parallèle.

Cela signifie que chaque noeud du cluster stocke une partie de l’ensemble de données localement. Ceci permet de combiner la simplicité d’une architecture  » shared-disk  » avec les performances et l’élasticité d’une architecture  » shared-nothing « .

Cette architecture unique en son genre repose sur trois composants principaux : le stockage de base de données, le traitement de requêtes, et les services Cloud. Lorsque les données sont chargées vers Snowflake, elles sont automatiquement réorganisées dans un format propriétaire compressé et optimisé et stockées sur le Cloud.

L’organisation, la taille, la structure, la compression des fichiers, ainsi que les métadonnées, les statistiques et les autres aspects du stockage de données sont pris en charge par Snowflake. Les objets stockés par Snowflake ne sont pas directement visibles ou accessibles par les utilisateurs, mais uniquement accessibles par le biais de requêtes SQL exécutées à l’aide de Snowflake.

Les requêtes sont traitées à l’aide de  » warehouses virtuelles « . Chacune d’entre elles est un cluster de calcul massivement parallèle composé de multiples noeuds de calculs. Chaque warehouse est indépendante, et ne partage pas ses ressources de calcul avec les autres warehouses virtuelles. Ceci permet une indépendance des performances.

Enfin, les différents services Cloud permettent de coordonner les activités sur Snowflake. Ces différents services visent à lier entre eux les différents composants de Snowflake. Parmi ces services, on compte l’authentification, la gestion d’infrastructure, la gestion de métadonnées, l’optimisation de requêtes, et le contrôle d’accès.

Quels sont les avantages de Snowflake ?

snowflake avantages

Avec Snowflake, les entreprises peuvent profiter des performances d’une Data Warehouse combinée à la flexibilité du Cloud. Ainsi, les utilisateurs peuvent profiter d’insights à partir des données de façon instantanée. De plus, l’utilisation est facturée à la seconde. Ceci permet une scalabilité infinie et une réduction des coûts. Les performances sont, elles aussi, élastiques et peuvent s’adapter aux besoins des utilisateurs.

Le partage de données peut être effectué en temps réel et en toute sécurité, ce qui permet aux entreprises de collaborer avec leurs partenaires sans prendre de risque. En outre, les données peuvent être répliquées entre plusieurs régions et fournisseurs de Cloud pour assurer une disponibilité permanente et sans downtime. Snowflake est compatible avec les Clouds AWS, Microsoft Azure et depuis peu avec la Google Cloud Platform.

Un vaste écosystème de partenaires technologiques

Snowflake se distingue également par son large écosystème de partenaires technologiques. Voici quelques-unes des technologies qui viennent compléter la Cloud Data Warehouse.

Matillion, la solution de transformation de données pour Snowflake

Partenaire majeur de Snowflake, Matillion propose une solution d’intégration et d’analyse de données de différents formats en provenance de multiples Clouds. La migration, la préparation, et tout le processus de transformation des données vers Snowflake sont prises en charge.

Ainsi, le processus de transformation s’en trouve fortement accéléré par rapport aux autres solutions ETL. Les utilisateurs peuvent donc utiliser Snowflake plus rapidement. L’interface intuitive permet également de faciliter la tâche. De plus, le modèle de facturation  » pay-as-you-go  » permet de fortement réduire les coûts.

Fivetran, des connecteurs de données pour faciliter les requêtes

Avec Fivetran, les utilisateurs peuvent répliquer toutes leurs données sous la forme de schémas  » ready-to-query «  sur Snowflake. Les connecteurs de données ne nécessitent aucune maintenance, et prennent moins de cinq minutes à configurer.

Les utilisateurs peuvent donc se focaliser sur l’analyse de données plutôt que la gestion de pipeline. Grâce à cette solution, les requêtes sur la Data Warehouse à l’aide de SQL ou d’autres outils de Business Intelligence peuvent être effectuées plus facilement.

Wherescape, une solution d’automatisation pour Snowflake

Wherescape permet d’automatiser le design, le développement, le déploiement et l’exploitation des projets Snowflake. Cette solution permet aux utilisateurs de profiter plus facilement et plus rapidement des avantages de la Cloud Data Warehouse.

Le cycle de développement peut être largement raccourci, et le processus de coding est automatisé à 95%. Les tâches répétitives et chronophages sont éliminées, et le prototypage rapide permet aux utilisateurs business d’accéder aux solutions analytiques plus rapidement.

Qubole, quand le Machine Learning rencontre Snowflake

Avec Qubole, la solution de big data-as-a-service, les utilisateurs peuvent utiliser Apache Spark sur les données sur Snowflake. Les modèles de Machine Learning ou d’intelligence artificielle peuvent être développés, entraînés et mis en production avec Spark grâce aux informations stockées sur Snowflake.

De plus, les Data Engineers peuvent utiliser les fonctionnalités d’intégration des tâches de préparation des données avancées comme le Data Wrangling, l’augmentation ou le raffinement des données.

Il ne s’agit là que de quelques exemples de partenaires technologiques de Snowflake. Au total, la firme californienne totalise plus de 50 partenaires. On peut également citer Alooma qui permet de rassembler les données en provenance de multiples sources, Segment dont l’API permet de simplifier la collecte de données, ou encore Locker qui permet aux entreprises de devenir data-driven en ouvrant l’accès aux données. Pour plus d’informations sur l’écosystème de partenaires de Snowflake, rendez-vous à cette adresse.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Send this to a friend