Accueil > Analytics > Google BigQuery : tout savoir sur la plateforme Cloud de Big Data
google bigquery tout savoir

Google BigQuery : tout savoir sur la plateforme Cloud de Big Data

Google BigQuery est une plateforme d’analyse de données Big Data proposée par Google via le Cloud. Découvrez tout ce que vous devez savoir au sujet de cette Data Warehouse virtuelle : définition, fonctionnement, avantages…

Le stockage et le  » querying  » d’ensembles de données massifs peuvent s’avérer à la fois chers et chronophages pour les entreprises qui ne disposent pas des infrastructures et du hardware adéquats. C’est la raison pour laquelle Google propose sa plateforme Google BigQuery.

Google BigQuery : qu’est-ce que c’est et à quoi ça sert ?

Google BigQuery est une Data Warehouse conçue pour permettre aux entreprises d’effectuer des requêtes SQL très rapidement grâce à la puissance de traitement de l’infrastructure Cloud de Google. Ainsi, elle s’inscrit dans la famille des Infrastructures en tant que Services Cloud (IaaS). Pensée pour le Big Data, cette plateforme permet d’analyser des milliards de lignes de données.

Directement déployée en V2 en 2011, BigQuery est en fait une  » version externalisée  » du logiciel de requête Dremel utilisé en interne par la firme pour suivre les données d’installation d’appareils, créer des rapports de plantage ou analyser les spams. Le point commun entre les deux plateformes est qu’elles utilisent le stockage en colonne pour scanner rapidement les données, et une architecture arborescente pour dispatcher les requêtes et agréger les résultats entre de larges clusters d’ordinateurs.

Suite à son lancement en externe, BigQuery s’est étoffé de nombreuses fonctionnalités. Depuis 2013, les data joins, l’horodatage et la possibilité d’insérer des streams de données ont été ajoutés au service.

Google BigQuery : comment ça marche ?

google bigquery fonctionnement

Il suffit de transférer les données vers BigQuery pour profiter de la puissance de l’infrastructure de Google. Le service est entièrement géré, ce qui signifie que l’on ne déploie pas de ressources comme des disques ou des machines virtuelles pour commencer à l’utiliser.

Le service intègre également de nombreux outils de Google ou d’entreprises tierces tels que Google Analytics 360, Talend, Informatica, Tableau sofware, Qlik, ou encore Data Studio. Il est possible de transférer des données en provenance de multiples sources comme Google Analytics, Firebase, Google Sheets, ou autres ETL comme Talend et Traffika. Vous pourrez donc centraliser toutes vos données brutes dans le Cloud.

Les principaux composants de Google BigQuery

Pour accéder à BigQuery, on peut utiliser la console GCP ou l’interface web. Il est possible d’y accéder via un outil de type command-line, ou en appelant la BigQuery REST API via une variété de bibliothèques clients telles que Java, .NET ou encore Python. Il existe aussi une variété d’outils tiers qui permettent d’interagir avec la plateforme, par exemple pour visualiser les données ou pour les charger.

BigQuery repose sur deux principaux composants : Dremel et Borg. Google présente Dremel, le moteur de requête, comme un  » service Cloud de requête massivement parallèle « . Basé sur un système de gestion de fichiers, Dremel permet de traduire les requêtes SQL en instructions de niveau inférieur pour le moteur.

Le second composant, Borg, est le système de gestion de clusters à grande échelle de Google. Celui-ci permet d’assigner automatiquement les ressources de calcul et de stockage des serveurs à des tâches individuelles, plutôt que d’avoir à e faire manuellement.

Si vous souhaitez apprendre à utiliser BigQuery, sachez que Google propose de nombreux tutoriels en français sur son site officiel. Vous pouvez les consulter à cette adresse. En outre, vous pourrez retrouver à la fin de cette article des tutoriels vidéo en anglais pour apprendre à effectuer du reporting avec le service ou pour apprendre à utiliser Firebase Analytics.

Google BigQuery vs Amazon Redshift et Microsoft Azure SQL Data

bigquery vs redshift

Bien évidemment, BigQuery n’est pas la seule Data Warehouse virtuelle dans le Cloud. Les principaux concurrents de Google sur le marché du Cloud Computing, Amazon et Microsoft, proposent eux aussi des services similaires : Amazon Redshift et Microsoft Azure SQL Data. Ces plateformes permettent à l’administrateur de base de données d’ingérer des données, d’assigner les ressources de stockage et de calcul, et d’intégrer avec d’autres outils de Business Intelligence.

Cependant, La Data Warehouse de Google tire son épingle du jeu en automatisant le formatage de données et l’approvisionnement des ressources. La plateforme se charge également des opérations de maintenance. L’utilisateur se contente de connecter les sources de données et d’exécuter des requêtes.

Cette plateforme est donc plus facile à utiliser que ses concurrentes. En revanche, en termes de performances, BigQuery ne peut rivaliser avec des systèmes comme Amazon Redshift.

Google BigQuery : quels sont les prix du service ?

Maintenant que vous connaissez les fonctionnalités de BigQuery, vous souhaitez sans doute connaître son pricing. Sachez que les coûts de stockage de la plateforme dépendent uniquement du volume de données stockées.

Google distingue le stockage actif du stockage à long terme. La firme facture le strockage actif de façon mensuelle en fonction des données stockées dans des tables et modifiées au cours des 90 derniers jours. Le stockage à long terme concerne les tables qui n’ont pas été modifiées au cours des 90 derniers jours coûte moins cher.

Concernant le stockage actif, 10Go sont offerts chaque mois puis chaque GB supplémentaire utilisé coûte 0,020 dollars par mois. Le stockage à long terme est quant à lui facturé 0,010 dollars par mois après les 10 premiers Go offerts chaque mois. En ce qui concerne les requêtes pour l’analyse de données, le prmier To est gratuit chaque mois puis Google facturs 5 dollars par TB.

Toutefois, parallèlement à ce modèle de tarification à la demande, Google propose aussi une tarification forfaitaire avec des coûts fixes et identifiques chaque mois. Les entreprises optent généralement pour ce modèle.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Send this to a friend