comparatif hadoop distributions

Comparatif Hadoop : top 7 des vendeurs commerciaux de distributions - avril 2024

Afin de proposer aux entreprises une solution Hadoop stable, sécurisée et complète pour le , de nombreux vendeurs proposent leurs propres distributions. Découvrez le top 7 des meilleurs vendeurs commerciaux dans ce comparatif Hadoop. Décrouvrez leurs avantages et inconvénients par rapport à la concurrence. 

Selon les analystes Big Data de Forrester Research, adopter Hadoop est indispensable pour toute organisation souhaitant entreprendre une stratégie d'analyse de données. Selon le cabinet, entre 60% et 73% des données accessibles aux entreprises sont inutilisées pour la Business Intelligence et les analyses.

Comparatif Hadoop : ce que pensent les analystes

Pour les analystes Mike Gualtieri et Noel Yuhanna, c'est tout simplement inacceptable à l'ère où les insights actionnables sont devenus une nécessité pour la compétition. Ce point de vue est exprimé dans le rapport Wave, un comparatif Hadoop des distributions disponibles sur le marché. Les développeurs d'applications et les professionnels adoptent Hadoop en masse et les analystes estiment que 100% des entreprises sont susceptibles de recourir au fameux framework logiciel

comparatif hadoop marche

Hadoop est considéré comme la principale plateforme pour le traitement de données grâce son coût peu élevé et la scalabilité complète de ses capacités de traitement de données. Ce framework open source est toutefois toujours immature, et les entreprises doivent encore faire appel à des vendeurs proposant des options, des outils et fonctionnalités novatrices en plus de la solution de base.

Comparatif Hadoop : qu'est-ce que différencie les offres Open Source des modèles distribués ?

Initialement, Hadoop est une technologie Big Data open source dont les principaux composants sont HDFS, Common, MapReduce et YARN. Toutefois, sans les packages de solutions et le support commercial des vendeurs Hadoop, cette solution est insuffisante. Il n'est pas nécessaire de produire un comparatif Hadoop pour que les vendeurs de distributions commerciales se livrent une concurrence féroce. Ils le font depuis maintenant quelques années.

Ces vendeurs ajoutent des fonctionnalités à Hadoop pour le support, en proposant une guidance et une assistance technique facilitant l'adoption d'Hadoop pour les entreprises. Ils accentuent également la fiabilité de la plateforme en agissant immédiatement quand un bug est détecté. Des patchs sont immédiatement déployés en cas de problème. Enfin, ils offrent une solution plus complète en ajoutant divers outils additionnels pour aider leurs clients à personnaliser Hadoop pour répondre à leurs besoins spécifiques.

vendeurs-hadoop

Le meilleur distributeur commercial n'existe pas. Dans ce comparaitif Hadoop, on constate plutôt une grappe de vendeurs aux spécificités différentes. Parmi les distributeurs les plus compétents, on compte , Hortonworkss MapR, IBM et Pivotal. Il s'agit du top 5 des distributeurs du comparatif Hadoop de Forrester.

Comparatif Hadoop : 7 distributeurs aux spécificités bien marquées

Ces différents vendeurs focalisent leurs logiciels sur des fonctionnalités clés de l'entreprise telles que la sécurité, l'intégration à l'échelle, la gouvernance et la performance. Ces logiciels peuvent être déployés sur les serveurs des clients, sur le Cloud privé, ou sur le Cloud public. C'est ensuite à ces entreprises de gérer le logiciel. Outre les cinq vendeurs choisis par Forrester, on compte également Web Service Elastic MapReduce et Azure HDInsight. Ces deux dernières options sont uniquement utilisables sur le Cloud public et les clients ne peuvent les lancer sur leurs propres installations.

Cloudera : le leader de ce comparatif Hadoop

cloudera comparatif hadoop

Fondé en 2008, Cloudera est considéré par Forrester comme le leader du marché de son comparatif Hadoop. La firme reçoit le plus haut score pour son offre actuelle et sa présence sur le marché. Ce score est basé sur une liste de trente critères utilisés par Forrester pour comparer les vendeurs. Cette entreprise fut fondée par des ingénieurs de Yahoo, Google ou encore Facebook.

En plus du logiciel/Plateforme open source, Cloudera propose des changements propriétaires permettant d'améliorer la sécurité, la disponibilité, la gouvernance et l'administration du logiciel. Elle fournit également un support client et des formations. La firme compte des centaines de clients dont l'US Army, AllState ou Monsanto. Certains de ces clients déploient plus de 1000 nœuds sur un cluster Hadoop pour effectuer des analyses sur un petabyte de données. Cloudera doit également son succès à ses partenaires de prestige comme , IBM, HP, NetApp ou MongoDB.  

Points positifs

  •  Des améliorations de la sécurité par changement propriétaire
  • Plusieurs outils premium disponibles
  • Une interface « simplifiée »

Points négatifs

  • Plus lent que les solutions MapR
  • Cloudera n'est pas adapté à tous les cas d'usages

 

Hortonworks

hortonworks comparatif hadoop

Le principal concurrent de Cloudera dans ce comparatif Hadoop n'est autre que Hortonworks, second sur le marché en terme de présence. Ce vendeur compte dans le top 100 Red Herring. Ce pure player propose une distribution  open source à 100% de la plateforme de traitement de données. La firme cherche à proposer ses innovations à travers la plateforme open data et à bâtir un écosystème de partenaires pour accélérer le processus d'adoption d'Hadoop en entreprise. Grâce à ce choix, les clients bénéficient d'une flexibilité complète durant l'utilisation du logiciel s'ils souhaitent changer de distribution.

Selon Mike Gualtieri, principal analyste de Forrester, quand la communauté open source n'avance pas assez vite dans certains domaines, Hortonworks lance de nouveaux projets pour l'aider. Par exemple, Apache Ambari est une console de gestion de cluster développée par Hortonworks pour la provision, la gestion et la surveillance des clusters Hadoop. Malheureusement, cette approche open source se fait au détriment de certaines fonctionnalités.

Dans ce comparatif Hadoop, l'entreprise fait montre de ses pouvoirs de séduction. Chaque trimestre, Hortonworks attire à peu près 60 nouveaux clients dont certains géants comme Samsung, Spotify, Bloomberg ou eBay. La firme est également partenaire de RedHat, Microsoft, ou Teradata.

Points positifs

  • La seule distribution du comparatif Hadoop à supporter Windows
  • N'enferme pas ses utilisateurs dans un silo distributif
  • Système de partenariats et de certifications

Points négatifs

  • Manque de certaines fonctionnalités
  • Interface basique

MAPR

mapr comparatif hadoop

MapR quant à lui remporte un score de 4,34 sur 5. Hors ce comparatif Hadoop, ce vendeur est également listé parmi les « Cool Vendors in Information Infrastructure and Big Data 2012 » de .  Selon les spécialistes Gualitieri et Yuhanna, MapR offre le meilleur compromis entre haute performance et scalabilité, tout en maximisant la facilité d'usage.

Ce vendeur a fait des investissements importants pour surmonter les obstacles à l'adoption mondiale d'Hadoop. Sa solution est fiable, protège efficacement les données, et permet d'intégrer aisément le framework au sein d'environnements existants. Son infrastructure permet de prendre en charge les opérations en temps réel.

Depuis 2015, MapR continue à investir et à innover pour supporter le « business-as-it-happens » afin d'améliorer le chiffre d'affaires, mitiger les risques et réduire les coûts.

Points positifs

  •  La plus rapide des solutions de ce comparatif Hadoop
  • Prend en charge les opérations en temps réel
  • Intégration aisée et fiabilité

Points négatifs

  • Interface console moins facile à utiliser que Cloudera
  • Plus cher que HortonWorks et Cloudera

IBM Infosphere BigInsights Hadoop Distribution

ibm comparatif hadoop

IBM est également un important compétiteur du comparatif Hadoop, notamment pour les clients data de la firme qui souhaitent étendre leurs stratégies analytiques en incluant le framework. Sa distribution dédiée combinait Hadoop avec des caractéristiques d'entreprises. Le Californien proposait BigSheets et BigInsights en tant que service par l'intermédiaire de sa Smartcloud Enterprise Infrastructure. Les utilisateurs peuvaient facilement mettre en place et déplacer leurs données vers les clusters Hadoop en trente minutes. Le taux de traitement de données étaient de soixante centimes par heure pour chaque cluster. Depuis le 13 juin 2017, IBM a cessé de proposer sa propre distribution du framework et est devenu revendeur partenaire des solutions HortonWorks.

Points positifs

  • Intégration parfaite avec les autres outils IBM
  • Distribution de la version Hadoop standard de HortonWorks

Points négatifs

  • Plus cher que ses concurrents

Pivotal

pivotal comparatif hadoop

Parmi les vendeurs à considérer, Pivotal est également en bonne position. Cependant, la firme n'est pas la plus efficace de ce comparatif Hadoop et Forrester la classe en cinquième position en termes de présence sur le marché. Sa distribution convenait aux clients utilisant déjà les autres produits et services de gestion de données et de développement d'applications de la firme, comme la PaaS Cloud Foundry et le logiciel de gestion de données Greenplum. Depuis, Pivotal s'est rallié à HortonWorks, deux ans avant IBM.

Points positifs

  • Des ajouts de nombreuses fonctionnalités depuis sa marketplace
  • Distribution de la version Hadoop standard de HortonWorks

Points négatifs

  • le manque de documentations lors de la migration vers Hortonworks

 

Les vendeurs Cloud du comparatif Hadoop

Elastic MapReduce Hadoop Distribution

aws comparatif hadoop

Amazon Hadoop Vendor est présent depuis les débuts d'Hadoop. Dans ce comparatif Hadoop, AWS Elastic MapReduce offre une plateforme d'analyse de données facile à utiliser et bien organisée basée sur l'architecture HDFS. La priorité est mise sur les requêtes map/reduce. La plateforme propose une infrastructure sécurisée et hautement scalable à ses utilisateurs. AWS EMR compte parmi les meilleurs vendeurs avec la plus grande part du marché à l'internationale.

La plateforme prend en charge des tâches Big Data importantes comme l'indexage, la simulation scientifique, l'analyse de log, les bioinformatics, le machine learning, l'analyse financière et le data warehousing. Il s'agit d'une option de premier choix pour les entreprises qui ne souhaitent pas gérer directement des milliers de serveurs et préfèrent louer l'infrastructure Cloud d'Amazon pour leur stratégie Big Data.

AWS Hadoop Vendor propose également la base de données NoSQL DynamoDB, initialement déployée pour son site grand public. La solution analytique gérée Redshift permet de prendre en charge jusqu'à un petabyte de données à moindre coût. Son tarif s'élève à 1000 dollars à l'année par terabyte.

Points positifs

  • Accès aux données stockées sur Amazon S3
  • Coût bien moins important qu'une déclinaison Hadoop sur site
  • Gestion automatique des Clusters

Points négatifs

  • Pas de console de gestion comme Ambari
  • La lenteur d'Amazon S3

Microsoft Hadoop Distribution HDInsight

microsoft comparatif hadoop

Microsoft Hadoop Distribution était notée 4/5 en termes de présence et de stratégie. La firme de Redmond n'est pas réputée pour apprécier les solutions logicielles open source, mais elle a fait des efforts pour proposer cette plateforme open data sur Windows. Microsoft propose Hadoop en tant que service à travers son produit Cloud public Azure. Elle propose également Polybase, une fonctionnalité permettant aux usagers de chercher des informations disponibles sur SQL Server pendant l'exécution de requêtes Hadoop. Elle aussi a finalement rallier le camp d'HortonWorks et abandonné sa propre distribution du Framework.

Points positifs

  • L'écosystème
  • Distribution de la version Hadoop standard de HortonWorks

Points négatifs

  • Plus cher que AWS EMR

Des distributions adaptées aux besoins de chaque entreprise

Malgré sa position dominante sur le marché, Cloudera n'est pas forcément la solution idéale pour toutes les entreprises. Cloudera et MapR sont effectivement les meilleures solutions si l'argent n'est pas un problème. Leurs fonctionnalités avancées sont un réel avantage. Par exemple, Cloudera est compatible Impala, tandis que MapR a des attributs HA unique et utilise un système de fichier compatible NFS. MapR est également considéré comme la solution la plus rapide du marché.

Cependant, ces deux distributions divergent largement du framework originel, ce qui peut s'avérer troublant et problématique dans certaines situations. De même, le coût élevé de ces solutions est à prendre en compte. Cloudera et MapR nécessitent d'acheter des logiciels onéreux et des services supplémentaires en fonction de la taille du cluster, sans quoi il devient impossible de le gérer.

Comparatif Hadoop : des choix cruciaux à effectuer

De son côté, Hortonworks maintient une meilleure connexion avec la version initiale du framework, et repose uniquement sur un logiciel open source. La fierté de ce vendeur est d'avoir des contributeurs aux origines d'Hadoop parmi ses employés. La prise en charge d'Ambari, Nagios et Ganglia n'est peut-être pas aussi bonne qu'avec les versions payantes de Cloudera et MapR, mais meilleure que leurs versions gratuites. Hortonworks est en effet gratuit, sauf si vous optez pour les services de support du distributeur.

Le système d'entrepôt des données varie également entre ces trois distributeurs. Cloudera fait le choix d'outrepasser map-reduce et de proposer Impala en guise de moteur SQL rapide. MapR propose Drill en guise d'alternative. Hortonworks privilégie l'amélioration des performances et la compatibilité SQL de Hive avec Stinger.

Les distributeurs commerciaux continuent à mûrir au fil des années, à mesure que les technologies Big Data sont adoptées par les entreprises à l'internationale. Si les vendeurs présentés dans ce comparatif Hadoop représentent la crème de la crème de l'industrie, ils restent difficiles à départager entre eux tant la concurrence fait rage.

En savoir plus sur Hadoop

  1. Cluster Hadoop : tout comprendre sur les grappes de serveurs
  2. Hadoop – Tout savoir sur la principale plateforme Big Data
  3. HDFS : fonctionnement, avantages et inconvénients du système de fichiers de Apache Hadoop

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *