L’entreprise MapR propose une plateforme Big Data regroupant les composants Apache Hadoop et Spark, une base de données en temps réel et un espace de stockage. Il s’agit d’une solution idéale pour les entreprises souhaitant déployer une stratégie Big Data sans interruption à moindre coût et en toute sécurité.
MapR est une entreprise de création de logiciels, fondée en 2009, et située à San Jose, en Californie. Elle est à l’origine de plusieurs des principaux projets open source Hadoop, dont Apache HBase, Apache Hive, Apache Zookeeper ou encore Apache Pig. Cette entreprise vend ses propres projets Hadoop à des clients en provenance de nombreuses et diverses industries telles que la vente au détail, les services financiers, les médias, la santé, la manufacture, les télécommunications et le secteur public.
Elle propose trois versions de son produit Apache Hadoop. Ces trois versions sont nommées M3, M5 et M7. M3 est une version gratuite, M5 est payante et propose davantage de fonctionnalités, tandis que M7 ajoute une version modifiée d’HBase implémentant l’API HBase directement dans le système de fichiers.
En 2016, MapR a lancé un nouveau produit baptisé Converged Data Platform. Ce produit regroupe le système pub-sub MapR Streams, le document store no-sql MapRDB et tous les composants de l’écosystème Hadoop intégrés au même système de fichiers distribué. L’objectif est de combiner la puissance d’Hadoop et Spark avec un flux global d’événements, des capacités de base de données en temps réel, et un stockage d’entreprise pour utiliser ou développer des applications data novatrices.
Des partenariats avec les leaders du Cloud
Outre ses contributions à des projets Hadoop, MapR est également connue pour ses partenariats avec d’autres leaders de la tech. Par exemple, la distribution Hadoop de MapR est intégrée au framework Google Compute Engine. Il est possible d’y accéder par le biais de l’infrastructure Cloud de Google. Elle est également proposée en option au sein du service Amazon Elastic MapReduce. Les clients peuvent s’approvisionner en clusters Hadoop à travers ce service. Elle est également prise en charge par la plateforme analytique HP Vertica.
MapR, leader en performances, disponibilité, et compatibilité API
Selon le vice-président au marketing de MapR, Jack Norris, les entreprises accordent peu d’importance au fait qu’une distribution Hadoop soit purement open source, ou qu’elle comporte des composants propriétaires. Leurs priorités sont les hautes performances, la disponibilité, et la compatibilité avec les API. Il s’agit là de la philosophie de MapR, qui la démarque de ses concurrents.
Toujours selon Norris, MapR est le leader dans ces trois catégories, et sa clientèle est là pour le prouver. En 2012, à l’époque à laquelle ce discours fut tenu, la firme comptait entre 40 et 50 clients utilisant sa distribution M5 Hadoop intégrant le stockage NFS. On dénombrait parmi ces usagers comScore, la firme d’intelligence de marché en ligne. De même, la solution gratuite M3 avait été téléchargée plusieurs milliers de fois.
Les avantages de MapR pour la performance et la disponibilité sont multiples :
_ L’architecture de M5 permet de combler la seule faille de HDFS
_ Le Lockless Storage Service, qui se traduit par un meilleur usage de MapReduce
_ La capacité à lancer le même nombre de tâches sur un nombre de nœuds moindre, réduisant le TCO.
En 2013, MapR a battu le record du test benchmark MinuteSort, permettant de mesurer combien de données un système peut trier en une minute. MapR était capable de trier 15 milliards de fichiers 100-byte, soit 1,5 terabytes en 59 secondes.
Une approche originale de l’Open Source
Cependant, c’est par son approche de l’open source que MapR se distingue véritablement. Cette approche consiste à améliorer une base open source à l’aide de composants et de services propriétaires. Selon Norris, il s’agit d’un modèle standard dans le domaine commercial de l’open source. Cependant, beaucoup considèrent que le stockage est bel et bien le cœur d’une distribution Hadoop et non un simple add-on.
Norris affirme également que l’important n’est pas que la distribution Hadoop soit purement open source ou non, mais avant tout 100% compatible avec l’API Apache. C’est le cas de M5. En conséquence, les développeurs peuvent facilement intégrer la distribution MapR avec HBase, HDFS et d’autres composants Apache Hadoop. Ils peuvent également aisément transférer des données vers ou en provenance de NFS.
Une stratégie go-to-market pragmatique
Cette focalisation vers la performance, la disponibilité et la compatibilité API s’inscrit dans la stratégie go-to-market de MapR. La firme ne cherche pas à enseigner les avantages d’Hadoop sur le marché, contrairement à Cloudera et Hortonworks. Elle cherche à cibler les entreprises qui utilisent déjà Hadoop ou ont décidé de déployer Hadoop et évaluent les options de distribution.
Ainsi, MapR cible les clients qui comprennent déjà les possibilités offertes par Hadoop et souhaitent une version hautement disponible, optimisée pour les entreprises, qu’ils peuvent rapidement déployer et intégrer avec d’autres outils et technologies Big Data au travers d’API ouvertes. Elle vise des clients ayant déjà une expérience avec Cloudera ou Apache, prêts à utiliser Hadoop pour la production.
Une entreprise qui ne craint pas la concurrence
La stratégie de MapR comporte plusieurs risques. La plus grande menace serait que Apache Hadoop rattrape M5 en termes de performances et de disponibilité, avant que ce dernier ne se démocratise. La valeur ajoutée serait alors tout bonnement supprimée. Les contributeurs d’Apache ont d’ailleurs créé une fédération HDFS pour résoudre le principal problème du système.
Un autre risque est que la stratégie performance/disponibilité/compatibilité API ne parvienne pas à séduire les CIO. La communauté open source Hadoop et le marketing des concurrents risque en effet d’étouffer cette communication. Des rivaux comme Hortonworks ou Cloudera sont plus importants en taille que MapR, et sont plus enclins à devenir les standards de la distribution Hadoop. Malgré ces menaces, Norris ne pense pas que la distribution Apache puisse égaler M5. Le namenode distribué de MapR est supérieur à celui de la fédération par sa capacité à s’auto-régénérer, sans nécessiter l’intervention de l’utilisateur.
- Partager l'article :