Accueil > Analytics > Benchmark Big Data : définition et top des meilleurs outils
benchmark big data définition

Benchmark Big Data : définition et top des meilleurs outils

Les outils Benchmark Big Data permettent d’évaluer et de comparer les différents systèmes Big Data. Découvrez à quoi servent ces outils ainsi qu’une sélection des meilleurs d’entre eux.

Afin de savoir si un système Big Data sera suffisamment performant pour répondre aux besoins de l’entreprise, il est nécessaire de l’évaluer et de le comparer.  C’est ce qu’on appelle le Benchmarking. Pour ce faire, on utilise des suites d’outils spécialisés appelés Benchmarks Big Data.

Ces suites d’outils regroupent des micro benchmarks, des benchmarks de composants et des benchmarks d’application. Tout d’abord, les Micro Benchmarks sont utilisés pour évaluer les opérations système de bas niveau. Les benchmarks de composants servent à l’évaluation de fonctions de haut niveau. Enfin, les benchmarkets d’application mesurent le système pour les performances d’application.

Benchmark Big Data : quels sont les avantages ?

benchmark big data avantages

Les suite de Benchmark Big Data présentent de multiples avantages. Elles permettent notamment d’analyser la hiérarchie de mémoire, mesurer l’intensité d’opération, et de caractériser les workloads.

En outre, ces suites permettent de mesurer et de comparer les systèmes et architectures Big Data et leur facilité d’utilisation. Enfin, elles servent aussi à évaluer les applications, les workloads, les stacks de système logiciel et les ensembles de données.

Benchmark Big Data : top des meilleures suites d’outils ?

Découvrez à présent un top des meilleures suites d’outils de Benchmarks Big Data.

HiBench

La suite HiBench regroupe 10 micro workloads typiques. Elle offre aussi des options permettant aux utilisateurs d’activer la compression input/output pour la plupart des workloads avec le code de compression zlib.

AMP Benchmark

AMP Benchmark permet de mesurer le temps de réponse de différentes requêtes relationnelles : scans, agrégations, joins, et UDF. Il prend en charge différentes tailles de données. Cette suite est notamment utilisée pour la comparaison qualitative et quantitative entre cinq systèmes Big Data : Redshift, Hive, Shark, Impala et Stinger/Tez.

Ces systèmes ont des ensembles de capacités très différents. Les systèmes type MapReduce (Shark/Hive) ciblent les calculs flexibles et à grande échelle. Ils supportent les UDF, tolèrent les erreurs, et peuvent être scalés à des milliers de noeuds. De leur côté, les bases de données MPP traditionnelles sont conformes SQL et optimisées pour les requêtes relationnelles. De fait, le workload est un ensemble de requêtes que la plupart de ces systèmes peuvent accomplir.

CloudSuite

La suite benchmark CloudSuite est conçue pour les applications scale-out émergentes. La version 2.0 est constituée de huit applications sélectionnées en fonction de leur popularité dans les Data Centers modernes.

Les benchmarks sont basés sur des stacks logiciels du monde réel. Ils représentent également des configurations du monde réel.

BigDataBench

BigDataBench 3.1 regroupe 14 ensembles de données du monde réel et 33 workloads Big Data. De fait, il couvre tous les types de données : structurées, semi-structurées et non structurées.

Il prend aussi en charge différentes sources de données. Parmi ces différents types de sources, on compte le texte, les graphiques, les images, l’audio, la vidéo et les tableaux de données.

GridMix

GridMix est un benchmark conçu pour les clusters Hadoop. Il soumet un mélange de tâches synthétiques, et modèle un profil à partir des loads de production. Enfin, cet outil existe en trois versions différentes. Ils sont disponibles sous licence creative commons, et donc totalement gratuit.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Send this to a friend