apache cassandra tout savoir

Apache Cassandra : tout savoir sur la base de données NoSQL

Apache Cassandra est la base de données NoSQL la plus utilisée pour le stockage et le traitement de larges volumes de données. Découvrez tout ce que vous devez savoir sur ce système de database : présentation, caractéristiques principales, avantages…

Dans toutes les industries, les entreprises collectent, stockent et exploitent des volumes de données toujours plus importants. En conséquence, les bases de données relationnelles ne sont plus adaptées. Pour répondre aux exigences du Big Data, il est désormais nécessaire de se tourner vers des bases de données NoSQL.

Apache Cassandra est un système de base de données distribuée NoSQL hautement scalable et disponible, facilitant le stockage et la gestion de données structurées à haute vélocité sur de multiples serveurs.

Apache Cassandra : qu’est-ce que c’est ?

Apache Cassandra est un système de base de données distribuée très puissant, et particulièrement efficace pour prendre en charge de larges volumes d’enregistrements répartis sur de multiples serveurs. Initialement créé par Facebook, ce système est désormais open source.

Cette base de données peut être  » scalée  » facilement pour s’adapter à une augmentation soudaine de la demande. Il suffit pour cela de déployer des clusters Cassandra  » multi-node « . Par ailleurs, Cassandra est hautement disponible et présente l’avantage de ne pas avoir de point unique de défaillance.

Cassandra compte parmi les bases de données NoSQL les plus efficientes à ce jour. Pour rappel, une base de données NoSQL est un type de moteur de traitement de données pouvant être déployé uniquement pour traiter des données qui peuvent être stockées dans un format tabulaire.

Ce type de base de données est à opposer aux bases de données relationnelles. Les structures de données utilisées dans une database NoSQL sont très différentes.

L’une des principales caractéristiques des bases de données NoSQL est leur capacité à prendre en charge des volumes de données extrêmement larges. Elles se distinguent aussi par une API simple. Elles peuvent aussi être répliquées facilement.

L’histoire de Apache Cassandra

A l’origine, Apache Cassandra fut créé en interne par Facebook. L’objectif du géant américain était de développer un outil permettant à l’utilisateur du réseau social d’effectuer des recherches au sein de sa boîte de messages.

En juillet 2008, Facebook décide de rendre Cassandra open source. Un peu moins d’un an après, en mars 2009, Cassandra est accepté dans l’Apache Incubator. C’est en février 2010 que l’outil devient un projet Apache  » top-niveau « .

Depuis lors, Cassandra a beaucoup évolué. En 2021, la version actuelle est la 3.2.1. Cet outil est devenu extrêmement populaire face à l’essor du Big Data, à tel point que 40% des entreprises du Fortune 100 l’utilisent. Outre Facebook, on peut aussi citer Netflix et Uber.

Comment fonctionne Apache Cassandra ? Quelles sont ses caractéristiques ?

Apache Cassandra peut être définie par plusieurs caractéristiques essentielles. Tout d’abord, il s’agit d’une base de données orientée colonne. Elle est hautement consistante, tolérante aux erreurs, et scalable.

Il s’agit d’un système  » pair à pair « . Son design de distribution est basé sur Amazon DynamoDB, tandis que son modèle de données est basée sur Google Big Table. Son modèle de réplication de données reprend celui de Amazon Dynamo, mais y apporte des améliorations par le biais de son modèle de données orienté colonne.

L’architecture de base consiste en un groupe de noeuds. Chacun de ces noeuds peut accepter une requête de lecture ou d’écriture. Il s’agit d’un aspect essentiel, car cela signifie qu’il n’y a pas de noeud  » maître « . Tous les noeuds communiquent de façon égale.

Les données résident dans les noeuds d’un cluster, et le cluster est un ensemble de serveurs situés dans des Data Centers où les données sont stockées et traitées. Les noeuds liés entre eux sont regroupés dans un même Data Center.

Cette structure est pensée pour l’extensibilité. Si de l’espace supplémentaire est nécessaire, il suffit d’ajouter des noeuds. Le système est donc très facile à étendre en fonction des besoins, notamment si le nombre d’utilisateurs concurrents augmente.

Cette structure permet aussi la protection des données. Le  » commit log  » est une méthode de backup permettant d’assurer l’intégrité des données et d’éviter leur perte. Les données sont indexées et écrites sur une memtable, à savoir la structure de données dans la mémoire où Cassandra écrit. Chaque tableau à sa memtable active.

Lorsque les memtables atteignent leur maximum car le commit log est complet, elles sont transférées sur un disque et deviennent des SSTables immuables. C’est ce système qui permet la sécurité des données.

Apache Cassandra : quels sont les principaux avantages ?

apache cassandra caractéristiques

Cassandra est utilisée par certaines des plus grandes entreprises du monde : Facebook, Netflix, Twitter, Cisco, eBay… voici certains des avantages qui lui permettent de se distinguer de la concurrence.

Tout d’abord, Apache Cassandra est capable de prendre en charge les données structurées, non structurées ou semi-structurées. Elle est également capable de supporter les changements dynamiques apportés aux structures de données pour s’adapter aux besoins changeants.

Un autre avantage est son architecture scalable de façon linéaire. Il suffit d’ajouter de noeuds pour l’adapter à une hausse de la demande. En outre, les données peuvent être distribuées de façon homogène sur de multiples centres de données par le biais d’un processus de réplication des données.

Cette base de données est également très fiable, car les éventuelles défaillances de noeuds n’affectent par les performances générales. Cassandra se distingue aussi par son impressionnante vitesse d’écriture de données.

Quand faut-il utiliser (ou non) Apache Cassandra ?

Cassandra est un choix idéal pour les cas d’usage nécessitant une disponibilité ininterrompue. Cette base de données est également adaptée pour les entreprises travaillant sur des workloads massifs, ou nécessitant l’assurance de pouvoir étendre leurs services de façon flexible à mesure que leurs workloads s’étendent également. L’extensibilité de Cassandra répond à merveille à ce besoin.

En revanche, pour des tâches de Data Warehousing ou de stockage analytique, plusieurs alternatives se révèlent moins gourmandes en termes de ressources. De même, Cassandra n’est pas la meilleure solution pour analyses en temps réel.

Les cas d’usage

La base de données NoSQL Cassandra est utilisée pour une large variété d’applications. Voici quelques cas d’usage parmi les plus courants.

Cette plateforme est notamment utilisée par les entreprises proposant des services de messageries sur téléphone ou sur le web. Ce type d’applications génèrent de vastes volumes de données, et Cassandra est donc la base de données la plus adaptée.

En outre, cette database est couramment utilisée pour les applications de l’Internet des Objets. Pour cause, les objets connectés et leurs capteurs transmettent de vastes volumes de données à très haute vitesse.

Dans le domaine du retail, Cassandra est très utilisée pour mettre à jour très rapidement les catalogues de produits. Elle permet aussi de protéger durablement les paniers d’achat.

Enfin, Cassandra est également la référence dans le domaine des réseaux sociaux et des sites web. On l’utilise aussi bien pour l’analyse de données que pour les moteurs de recommandation.

Distributions commerciales de Cassandra : AWS vs DataStax

Lors de la conférence re:Invent 2019, AWS a dévoilé la quinzième base de données de son portfolio : Amazon Managed Apache Cassandra Service (MCS). Bien que les cas d’usage de Cassandra soient similaires à ceux de la plateforme Amazon DynamoDB, la base de données distribuée d’AWS, cette annonce répond à une demande des nombreux développeurs préférant cette option.

aws cassandra keynote

Avec son service MCS lancé en preview dès à présent, AWS entre en compétition directe avec DataStax et son service géré Apache Cassandra récemment lancé en beta. Les deux firmes seront donc en compétition pour lancer la version finalisée de leurs services respectifs en premier.

Les services de DataStax et AWS sont tous deux basés sur Apache Cassandra en version 3.11. La principale différence est que l’offre de AWS est serverless et intégrée à ses services de gestion Cloud existants, comme AWS Identity and Access Management (IAM) pour la gestion d’accès, Key Management Service (KMS) pour le chiffrement, ou Amazon Cloud Watch pour le monitoring.

Base de données NoSQL vs relationnelle : quelle est la différence ?

Une base de données NoSQL, aussi appelée  » Not Only SQL « , est une database ne reposant pas sur des relations tabulaires à l’inverse des bases de données relationnelles. Elle n’obéit pas à un schéma spécifique, facilite la réplication, et peut prendre en charge de vastes volumes de données.

Les principaux avantages des bases de données NoSQL comme Cassandra sont la simplicité du design, la possibilité d’extension horizontale, et un contrôle plus granulaire sur la disponibilité. Ces databases utilisent des structures différentes, mais leur intérêt par rapport aux bases de données relationnelles dépend du problème à résoudre.

Alors qu’une base de données relationnelle repose sur un puissant langage de requête, une base NoSQL est compatible avec un langage de requête très simple. Elle ne respecte pas de schéma spécifique, et ne repose pas sur la notion ACID : Atomicité, Consistance, Isolation et Durabilité. Enfin, la database NoSQL ne prend pas en charge les transactions.

Découvrez les principales faiblesses de Cassandra 

Requête

Cassandra a une faiblesse multiple lorsqu’il s’agit d’interroger les données. En fait, aucune jointure ni prise en charge des sous-requêtes. Si vous avez des données relationnelles et que vous souhaitez exécuter des jointures entre elles, vous devrez alors dupliquer vos données dans Cassandra. 

En outre, aucune prise en charge des requêtes ad hoc. En fait, il faut concevoir votre modèle de données en fonction des modèles de requête. 

Les requêtes de plage sur la clé de partition ne sont pas prises en charge. Les requêtes de plage sur Cassandra ne peuvent être effectuées que sur des colonnes faisant partie de la colonne de clustering ou sur des colonnes sur lesquelles des index secondaires ont été créés.

Agrégation

Cassandra a quelques faiblesses en matière d’agrégation de données. L’agrégation se fait au niveau de la partition. Si vous souhaitez exécuter des requêtes agrégées sur Cassandra, vous devez spécifier la clé de partition, car l’agrégation se produira au niveau de la partition. 

Cassandra prend en charge certaines fonctions d’agrégation intégrées telles que sum, avg, min, max et count. En outre, il prend en charge l’utilisation de fonctions définies par l’utilisateur qui peuvent être utilisées pour effectuer une manipulation des données avant l’agrégation. Cependant, les fonctions définies par l’utilisateur ne sont pas prises en charge si vous souhaitez créer une vue matérialisée.

Tri

Dans Cassandra, il n’est pas possible de regrouper et d’ordonner par la même colonne. L’ordre de tri est spécifié au moment de la création de la table. 

En outre, la clause ORDER BY ne peut être utilisée que lorsque les valeurs de clé de partition sont spécifiées, car le tri s’effectue au niveau de la partition (pas de tri dans la base de données).

Stockage

En termes de stockage, Cassandra a les limitations ci-dessous :

  • La distribution des données se fait uniquement à l’aide de la clé de partition, ce qui signifie que si vous choisissez de mauvaises clés de partition, cela peut entraîner des problèmes de points chauds où un nœud reçoit la majeure partie de la charge.
  • Chaque valeur de colonne ne peut pas dépasser 2 Go.
  • Les valeurs de collection ne peuvent pas dépasser 64 Ko.

Modélisation des données

Pas si facile de connaître à l’avance tous les modèles de requêtes possibles d’une application. Si les modèles de requête changent à l’avenir, vous devez modifier votre modèle de données, ce qui peut impliquer une migration de données ou beaucoup de travail.

Le choix de la clé de partition qui sera utilisée pour répartir uniformément les données sur le cluster est une tâche critique et peut parfois être difficile. Bien que penser aux colonnes à considérer comme colonnes de clustering et aux colonnes à indexer puisse également être difficile dans certains scénarios en fonction des requêtes.

Les alternatives

Parmi les bases de données NoSQL, il existe différentes alternatives à Apache Cassandra. L’une des plus populaires est Apache HBase. Il s’agit d’une base de données open source, non relationnelle. Elle est basée sur Google BigTable et écrite en Java. C’est un projet Apache Hadoop, qui tourne par dessus le HDFS et offre les capacités de BigTable pour Hadoop.

De son côté, MongoDB est une base de données orientée document. Plutôt que la structure en tableau traditionnelle des bases de données relationnelles, elle utilise des documents de type JSON avec des schémas dynamiques permettant de simplifier et d’accélérer l’intégration des données dans certains types de documents.

FAQ Apache Cassandra

Cette FAQ répond aux questions courantes et de haut niveau concernant Apache Cassandra.

Est-ce que Cassandra est gratuite ?

Cassandra est Open Source et bénéficie de la licence Apache 2.0.

Cassandra est-elle une base de données relationnelle ?

Cassandra ne constitue pas une base de données relationnelle, car sa conception ne prend pas en charge le modèle de données relationnelles. Plus précisément, un modèle relationnel implique que toutes les données sont représentées par des relations n-aires, qui sont un sous-ensemble du produit cartésien des domaines. Cassandra se différencie en modélisant les données comme des magasins clé-valeur, les valeurs étant représentées par des lignes. En effet, il n’est pas obligatoire que toutes les lignes d’une table aient les mêmes colonnes, ce qui est requis par le modèle relationnel. 

Cassandra est-il une base de données NoSQL ?

Oui, Cassandra est une base de données NoSQL. Cassandra utilise un modèle NoSQL en raison de la manière dont il peut absorber et traiter des quantités massives de données à des vitesses incroyables. 

Cassandra bénéficie-t-il d’une certaine notoriété ?

En effet, Cassandra est incroyablement populaire, utilisé par des milliers d’entreprises dans le monde. Sur son site Web, elle affiche une quantité énorme d’études de cas provenant de certains des plus grands logos du monde actuel. Elle est également classée à la 11e place sur DB-Engines, et est la première base de données à large colonne.

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée.

Pin It on Pinterest