Si vous débutez dans le domaine du Big Data, les nombreux termes techniques peuvent être déstabilisants. Afin de mieux comprendre les différents termes et notions liés à l’analyse de données massives, nous vous proposons un lexique Big Data regroupant les termes à connaître absolument pour mieux comprendre ce phénomène révolutionnaire.
Algorithme
Un algorithme est une formule mathématique ou un traitement statistique utilisé pour effectuer une analyse de données. Les algorithmes sont utilisés dans de nombreux autres domaines, mais ont une importance capitale dans le secteur du Big Data.
Analyse
L’analyse de données consiste à étudier des données pour essayer d’en dégager des informations pour prendre des décisions. Par exemple, si vous étudiez votre relevé de compte en décortiquant les différents postes de dépenses pour décider comment gérer votre argent pour les mois à venir, vous faites de l’analyse de données. L’analyse Big Data consiste quant à elle à étudier des ensembles de données massifs, comme par exemple les publications Facebook de tous les habitants d’une ville. Il existe en réalité trois types différents d’analyses.
Analyse descriptive
L’analyse descriptive consiste tout simplement à décrire le contenu d’un ensemble de données. Pour reprendre l’exemple du relevé de compte, une analyse descriptive consiste par exemple à dissocier les dépenses en différents postes. Par exemple, si vous déterminez que vous avez dépensé 25% dans la nourriture, 35% dans les vêtements, 20% dans les sorties, et le reste dans des objets décoratifs, il s’agit d’une analyse descriptive.
Analyse prédictive
Si vous analysez votre historique de carte bancaire pour les 5 précédentes années, et que la répartition des dépenses semble constante, vous pouvez prédire avec une forte probabilité que l’année prochaine sera similaire aux années précédentes. Il ne s’agit pas de prédire le futur, mais de prévoir les probabilités de ce qui peut survenir. Dans le domaine du Big Data, les data scientists utilisent des techniques avancées comme le Machine Learning et les traitements statistiques avancés pour faire des prédictions importantes comme les changements économiques ou les prévisions météorologiques.
Analyse prescriptive
L’analyse prescriptive permet de prédire les décisions à prendre pour un impact maximal. Par exemple, toujours dans l’exemple du relevé de compte, il peut s’agir de déterminer quels sont les postes de dépense à cibler pour réduire efficacement les dépenses. Les analyses prescriptives reprennent le principe des analyses prédictives en y ajoutant la notion d’action. L’analyse des résultats permet de déterminer des cibles sur lesquelles agir. Dans le domaine du Big Data, les entreprises prennent des décisions en observant l’impact potentiel des actions qu’ils peuvent effectuer.
Batch processing
Le Batch processing de données ne date pas d’hier. Cependant, le Big Data a donné à ce concept une nouvelle ampleur. Le batch processing permet de traiter de larges volumes de données. Le Framework Hadoop est focalisé sur batch processing de données.
Cassandra
Cassandra est un système de gestion de base de données open source géré par The Apache Software Foundation. Apache a créé un grand nombre de technologies Big Data et Cassandra est conçu pour prendre en charge de larges volumes de données sur des serveurs distribués.
Cloud computing
Le cloud computing est omniprésent depuis quelques années. De fait, il est devenu inutile de présenter cette technologie. Concrètement, il s’agit de logiciels ou de données hébergées ou lancées sur des serveurs distants, accessibles depuis n’importe où sur internet.
Cluster computing
Le terme Cluster Computing désigne une forme d’informatique reposant sur des ressources en provenance de multiples serveurs rassemblées en clusters.
Dark Data
Le terme Dark Data désigne toutes les données rassemblées et traitées par les entreprises qui ne sont pas utilisées par la suite dans un but précis. Ces données ne seront probablement jamais analysées. Il peut s’agir de flux en provenance de réseaux sociaux, d’historiques d’appels de call centers, de notes de meeting et bien plus encore. Selon différents analystes, environ 60% à 90% des données d’entreprises sont des dark data.
Data Lake
Un Data Lake est un répertoire où sont stockées de nombreuses données d’entreprises au format brut. Le Data Lake se différencie des Data Warehouses, qui servent à stocker les données structurées après qu’elles aient été nettoyées et intégrées avec d’autres sources. Un Data Lake permet de faciliter l’accès aux données.
Data Warehouse
Les Data Warehouses sont généralement utilisées pour le stockage de données conventionnelles, structurées et déjà formatées.
Data Mining
Le Data Mining permet de trouver des patterns et d’extraire des informations pertinentes en provenance de larges ensembles de données en utilisant des techniques de reconnaissance de patterns sophistiquées. Ce terme est étroitement lié à la notion d’analyse de données. Pour extraire des patterns, les data miners utilisent des statistiques, des algorithmes de machine Learning, et l’intelligence artificielle.
Data Scientist
Le Data Scientist est la personne qui se charge de donner un sens au Big Data en extrayant les données brutes du Data Lake, en les traitant, et en en tirant des insights. Parmi les compétences requises pour le data scientist, on compte les compétences en analyse, en statistiques, en science informatique, de la créativité, un talent pour la narration et une compréhension du contexte de l’entreprise. Il s’aigt donc d’un métier exigeant, ce qui explique les salaires très élevés des data scientists.
Données structurées ou non structurées
Les données structurées sont les données pouvant être intégrées aux bases de données relationnelles et organisées de façon à pouvoir être associées à d’autres données par l’intermédiaire de tableaux. Les données son structurées sont toutes les autres données : messages email, publications de réseaux sociaux, discours enregistrés, vidéos…
Système de Fichiers Distribué
Les données du Big Data sont trop nombreuses pour être stockées au sein d’un seul système. Les Systèmes de Fichiers Distribués sont un système de stockage de données conçu pour stocker de larges volumes de données sur plusieurs appareils de stockage et permettent de réduire les coûts et la complexité de stockage des larges quantités de données.
ETL
Les initiales ETL désignent les termes Extraire, Transformer et Load (charger). Cet acronyme fait référence au processus d’extraction de données brutes, à la transformation par le nettoyage et l’enrichissement des données pour les rendre utilisables, et au chargement de ces données au sein du répertoire approprié pour l’utilisation du système. L’ETL est initialement lié au data warehouses, mais l’ETL est désormais utilisé pour l’ingestion et l’absorption de données en provenance de sources externes dans les systèmes Big Data.
Hadoop
Le Framework logiciel open source Hadoop est inextricablement lié au Big Data. Ce framewok repose sur le système de fichiers distribué Hadoop (HDFS) et permet le stockage et l’analyse de larges ensembles de données par le biais de hardware distribué. Apache Foundation, qui a créé Hadoop, est également à l’origine de Pig, Hive et Spark.
In-memory Computing
Le computing in-memory est une technique permettant de transférer des ensembles de données complets vers la mémoire collective d’un cluster et d’éviter d’écrire des calculs intermédiaires sur le disque. Apache Spark est un système de computing in-memory offrant une vitesse nettement supérieure à Hadoop MapReduce.
IoT
Le terme IoT désigne l’internet des objets. L’internet des objets est une connexion entre des appareils connectés comme les smartwatches, les capteurs connectés, les véhicules connectés, les meubles connectés etc… ces appareils sont connectés via internet et permettent d’envoyer et de recevoir des données. L’IoT génère de larges quantités de données et offre d’importantes opportunités pour le Big Data.
Machine Learning
Le Machine Learning est une technologie permettant aux systèmes informatiques d’apprendre, de s’ajuster et de s’améliorer grâce aux données. Ces machines embarquent des algorithmes de prédictifs et statistiques afin d’apprendre et d’adopter le comportement correct. Plus les ordinateurs reçoivent de données, plus ils s’améliorent.
MapReduce
MapReduce est un modèle de programmation constitué de Map et de Reduce. Avec Map, le modèle sépare les ensembles de données en plusieurs parties afin qu’ils puissent être distribués sur différents ordinateurs à différents endroits. Par la suite, Reduce collecte les résultats et les réduit en un rapport. Le modèle de traitement de données de MapReduce est directement lié au système de fichiers distribué d’Hadoop.
NoSQL
SQL (Structured Query Language) est la base des systèmes de gestion de bases de données relationnelles traditionnels (RDBMS). NOSQL est l’acronyme de Not Only SQL. Ce terme désigne les systèmes de gestion de base de données conçus pour prendre en charge de larges volumes de données n’ayant pas de structure ou de schéma, contrairement aux bases de données relationnelles. Les bases de données NoSQL sont généralement bien adaptées aux systèmes Big Data pour leur flexibilité et leur architecture.
R
R est un langage de programmation très utilisé pour le computing statistique. Les data scientists doivent impérativement maîtriser ce langage, très utilisé dans le domaine de la data science.
Spark
Spark est un puissant moteur de traitement de données capable d’effectuer des tâches de streaming, de machine Learning, ou de requêtes SQL nécessitant un accès itératif rapide aux ensembles de données. Spark est généralement beaucoup plus rapide que MapReduce.
Stream processing
Le Stream processing permet d’agir en temps réel sur les données à l’aide de requêtes continues. Combiné avec les streaming analytics, comme les analyses mathématiques ou statistiques au sein du Stream, les solutions de Stream processing sont conçus pour prendre en charge de larges quantités de données en temps réel.
- Partager l'article :