Accueil > Analytics > Data Analytics > Hadoop : top 7 des vendeurs commerciaux de distributions

Hadoop : top 7 des vendeurs commerciaux de distributions

Afin de proposer aux entreprises une solution Hadoop stable, sécurisée et complète pour le Big Data, de nombreux vendeurs proposent leurs propres distributions Hadoop. Découvrez le top 7 des meilleurs vendeurs commerciaux Hadoop, et leurs avantages et inconvénients par rapport à la concurrence. 

Selon les analystes Big Data de Forrester Research, adopter Hadoop est indispensable pour toute organisation souhaitant entreprendre une stratégie d’analyse de données. Selon le cabinet, entre 60% et 73% des données accessibles aux entreprises sont inutilisées pour la Business Intelligence et les analyses.

Pour les analystes Mike Gualtieri et Noel Yuhanna, c’est tout simplement inacceptable à l’ère où les insights actionnables sont devenus une nécessité pour la compétition. Ce point de vue est exprimé dans le rapport Wave sur les distributions Hadoop. Les développeurs d’applications et les professionnels adoptent Hadoop en masse et les analystes estiment que 100% des entreprises sont susceptibles de recourir au fameux framework logiciel

hadoop-marche

Hadoop est considéré comme la principale plateforme pour le traitement de données grâce son coût peu élevé et la scalabilité complète de ses capacités de traitement de données. Ce framework open source est toutefois toujours immature, et les entreprises doivent encore faire appel à des vendeurs proposant des options, des outils et fonctionnalités novatrices en plus de la solution de base.

Initialement, Apache Hadoop est une technologie Big Data open source dont les principaux composants sont HDFS, Hadoop Common, Hadoop MapReduce et Hadoop YARN. Toutefois, sans les packages de solutions et le support commercial des vendeurs Hadoop, cette solution est insuffisante. Les vendeurs de distributions commerciales Hadoop se livrent une concurrence féroce depuis maintenant quelques années.

Ces vendeurs ajoutent des fonctionnalités à Hadoop pour le support, en proposant une guidance et une assistance technique facilitant l’adoption d’Hadoop pour les entreprises. Ils accentuent également la fiabilité d’Hadoop en agissant immédiatement quand un bug est détecté. Des patchs sont immédiatement déployés en cas de problème. Enfin, ils offrent une solution plus complète en ajoutant divers outils additionnels pour aider leurs clients à personnaliser Hadoop pour répondre à leurs besoins spécifiques.

vendeurs-hadoop

Le meilleur distributeur commercial d’Hadoop n’existe pas. On constate plutôt une grappe de vendeurs aux spécificités différentes. Parmi les distributeurs les plus compétents, on compte Cloudera, Hortonworkss MapR, IBM et Pivotal. Il s’agit du top 5 des distributeurs Hadoop selon Forrester.

Ces différents vendeurs focalisent leurs logiciels sur des fonctionnalités clés de l’entreprise telles que la sécurité, l’intégration à l’échelle, la gouvernance et la performance. Ces logiciels peuvent être déployés sur les serveurs des clients, sur le Cloud privé, ou sur le Cloud public. C’est ensuite à ces entreprises de gérer le logiciel. Outre les cinq vendeurs choisis par Forrester, on compte également Amazon Web Service Elastic MapReduce et Microsoft Azure HDInsight. Ces deux dernières options sont uniquement utilisables sur le Cloud public et les clients ne peuvent les lancer sur leurs propres installations.

Cloudera

cloudera-hadoop

Fondé en 2008, Cloudera est considéré par Forrester comme le leader du marché. La firme reçoit le plus haut score pour son offre actuelle et sa présence sur le marché. Ce score est basé sur une liste de trente critères utilisés par Forrester pour comparer les vendeurs. Cette entreprise fut fondée par des ingénieurs de Yahoo, Google ou encore Facebook.

En plus du logiciel Hadoop open source, Cloudera propose des changements propriétaires permettant d’améliorer la sécurité, la disponibilité, la gouvernance et l’administration du logiciel. Elle fournit également un support client et des formations. La firme compte des centaines de clients dont l’US Army, AllState ou Monsanto. Certains de ces clients déploient plus de 1000 nœuds sur un cluster Hadoop pour effectuer des analyses sur un petabyte de données. Cloudera doit également son succès à ses partenaires de prestige comme Oracle, IBM, HP, NetApp ou MongoDB.  

Hortonworks

hortonworks

Le principal concurrent de Cloudera n’est autre que Hortonworks, second sur le marché en terme de présence. Ce vendeur compte dans le top 100 Red Herring. Ce pure player propose une distribution d’Hadoop open source à 100%. La firme cherche à proposer ses innovations à travers la plateforme open data Hadoop et à bâtir un écosystème de partenaires pour accélérer le processus d’adoption d’Hadoop en entreprise. Grâce à ce choix, les clients bénéficient d’une flexibilité complète durant l’utilisation du logiciel s’ils souhaitent changer de distribution.

Selon Mike Gualtieri, principal analyste de Forrester, quand la communauté open source n’avance pas assez vite dans certains domaines, Hortonworks lance de nouveaux projets pour l’aider. Par exemple, Apache Ambari est une console de gestion de cluster développée par Hortonworks pour la provision, la gestion et la surveillance des clusters Hadoop. Malheureusement, cette approche open source se fait au détriment de certaines fonctionnalités.

Chaque trimestre, Hortonworks Hadoop attire à peu près 60 nouveaux clients dont certains géants comme Samsung, Spotify, Bloomberg ou eBay. La firme est également partenaire de RedHat, Microsoft, SAP ou Teradata.

MAPR

mapr

MapR quant à lui remporte un score de 4,34 sur 5. Ce vendeur est également listé parmi les « Cool Vendors in Information Infrastructure and Big Data 2012 » de Gartner.  Selon les spécialistes Gualitieri et Yuhanna, MapR offre le meilleur compromis entre haute performance et scalabilité, tout en maximisant la facilité d’usage.

Ce vendeur a fait des investissements importants pour surmonter les obstacles à l’adoption mondiale d’Hadoop. Sa solution est fiable, protège efficacement les données, et permet d’intégrer aisément le framework au sein d’environnements existants. Son infrastructure permet de prendre en charge les opérations en temps réel.

Depuis 2015, MapR continue à investir et à innover pour supporter le « business-as-it-happens » afin d’améliorer le chiffre d’affaires, mitiger les risques et réduire les coûts.

IBM Infosphere BigInsights Hadoop Distribution

ibm-hadoop

IBM est également un important compétiteur, notamment pour les clients data de la firme qui souhaitent étendre leurs stratégies analytiques en incluant Hadoop. Sa distribution combine Hadoop avec des caractéristiques d’entreprises. Le Californien propose BigSheets et BigInsights en tant que service par l’intermédiaire de sa Smartcloud Enterprise Infrastructure. Les utilisateurs peuvent facilement mettre en place et déplacer leurs données vers les clusters Hadoop en trente minutes. Le taux de traitement de données est soixante centimes par heure pour chaque cluster.

Pivotal

pivotal

Parmi les vendeurs à considérer, Pivotal est également en bonne position. Cependant, la firme atteint le moins bon score parmi les cinq distributeurs listés par Forrester et arrive en cinquième position en termes de présence sur le marché. Sa distribution convient aux clients utilisant déjà les autres produits et services de gestion de données et de développement d’applications de la firme, comme la PaaS Cloud Foundry et le logiciel de gestion de données Greenplum.

 

Les vendeurs Cloud

Amazon Web Services Elastic MapReduce Hadoop Distribution

aws-hadoop

Amazon Hadoop Vendor est présent depuis les débuts d’Hadoop. AWS Elastic MapReduce offre une plateforme d’analyse de données facile à utiliser et bien organisée basée sur l’architecture HDFS. La priorité est mise sur les requêtes map/reduce. La plateforme propose une infrastructure sécurisée et hautement scalable à ses utilisateurs. AWS EMR compte parmi les meilleurs vendeurs avec la plus grande part du marché à l’internationale.

La plateforme prend en charge des tâches Big Data importantes comme l’indexage, la simulation scientifique, l’analyse de log, les bioinformatics, le machine learning, l’analyse financière et le data warehousing. Il s’agit d’une option de premier choix pour les entreprises qui ne souhaitent pas gérer directement des milliers de serveurs et préfèrent louer l’infrastructure Cloud d’Amazon pour leur stratégie Big Data.

AWS Hadoop Vendor propose également la base de données NoSQL DynamoDB, initialement déployée pour son site grand public. La solution analytique gérée Redshift permet de prendre en charge jusqu’à un petabyte de données à moindre coût. Son tarif s’élève à 1000 dollars à l’année par terabyte.

Microsoft Hadoop Distribution HDInsight

microsoft-hadoop

Microsoft Hadoop Distribution est notée 4/5 en termes de présence et de stratégie. La firme de Redmond n’est pas réputée pour apprécier les solutions logicielles open source, mais elle a fait des efforts pour proposer cette plateforme open data sur Windows. Microsoft propose Hadoop en tant que service à travers son produit Cloud public Azure. Elle propose également Polybase, une fonctionnalité permettant aux usagers de chercher des informations disponibles sur SQL Server pendant l’exécution de requêtes Hadoop.

Des distributions adaptées aux besoins de chaque entreprise

Malgré sa position dominante sur le marché, Cloudera n’est pas forcément la solution idéale pour toutes les entreprises. Cloudera et MapR sont effectivement les meilleures solutions si l’argent n’est pas un problème. Leurs fonctionnalités avancées sont un réel avantage. Par exemple, Cloudera est compatible Impala, tandis que MapR a des attributs HA unique et utilise un système de fichier compatible NFS. MapR est également considéré comme la solution la plus rapide du marché.

Cependant, ces deux distributions divergent largement du framework originel, ce qui peut s’avérer troublant et problématique dans certaines situations. De même, le coût élevé de ces solutions est à prendre en compte. Cloudera et MapR nécessitent d’acheter des logiciels onéreux et des services supplémentaires en fonction de la taille du cluster, sans quoi il devient impossible de le gérer.

De son côté, Hortonworks maintient une meilleure connexion avec la version initiale de Hadoop, et repose uniquement sur un logiciel open source. La fierté de ce vendeur est d’avoir des contributeurs aux origines d’Hadoop parmi ses employés. La prise en charge d’Ambari, Nagios et Ganglia n’est peut-être pas aussi bonne qu’avec les versions payantes de Cloudera et MapR, mais meilleure que leurs versions gratuites. Hortonworks est en effet gratuit, sauf si vous optez pour les services de support du distributeur.

Le système d’entrepôt des données varie également entre ces trois distributeurs. Cloudera fait le choix d’outrepasser map-reduce et de proposer Impala en guise de moteur SQL rapide. MapR propose Drill en guise d’alternative. Hortonworks privilégie l’amélioration des performances et la compatibilité SQL de Hive avec Stinger.

Les vendeurs commerciaux Hadoop continuent à mûrir au fil des années, à mesure que les technologies Big Data sont adoptées par les entreprises à l’internationale. Si les vendeurs présentés dans cet article représentent la crème de la crème de l’industrie, ils restent difficiles à départager entre eux tant la concurrence fait rage.

A lire également

justice big data prejuges raciaux

Justice : l’utilisation du Big Data reproduirait-il les préjudices raciaux ?

Le Big Data appliqué aux décisions de justice renforcerait-il les préjugés raciaux ? C’est en …

Send this to friend