teradata une

Teradata : tout savoir sur la base de données Big Data open source

Teradata est un système de gestion de base de données open source, idéal pour le Big Data grâce à son architecture massivement parallèle. Découvrez tout ce que vous devez savoir : histoire, fonctionnalités, avantages…

À l’heure du Big Data, les entreprises disposent d’immenses volumes de données à exploiter. Toutefois, des solutions adéquates sont nécessaires pour stocker et traiter ces mégadonnées. Parmi les outils les plus réputés, on compte Teradata.

Qu’est-ce que Teradata ?

Teradata est un système de gestion de base de données open source. Cette plateforme permet de développer des applications de Data Warehouse à grande échelle.

Il s’agit d’un outil compatible avec Unix, Linux ou encore Windows. Le principal avantage de cette plateforme est le parallélisme, permettant d’effectuer de multiples opérations de Data Warehousing simultanément.

Ce logiciel est développé par l’entreprise américaine Teradata Corporation. Elle propose des plateformes d’analyse de données, des applications analytiques et d’autres services liés au Big Data. Ces produits permettent de consolider les données en provenance de sources variées, et rendent les données disponibles pour l’analyse.

L’histoire de Teradata

À l’origine, Teradata était une division de NCR Corporation. Elle a été incorporée en 1979, mais prit son indépendance en octobre 2007. C’est alors que Michael Koehler devint le premier CEO de Teradata.

L’histoire de Teradata est marquée par plusieurs dates clés. En 1984, la première base de données DBC/1012 fut lancée. En 1986, Teradata fut nommé ” Produit de l’Année ” par le magazine Fortune.

À la veille du nouveau millénaire, en 1999, la plus large base de données est créée avec Teradata pour une capacité totale de 130 Terabytes. En 2002, Teradata V2R5 est relaxée avec sa fonctionnalité de compression et Partition Primary.

L’expansion continue en 2006, avec le lancement de la solution Teradata Master Data Management. En 2008, Teradata 13.0 est lancée avec l’Active Data Warehousing comme principale nouveauté.

En 2011, Teradata acquiert Aster et se lance sur le marché de l’Advanced Analytics. Les versions se succèdent : la 14.0 en 2012, et la 15.0 en 2014.

Puis, en 2015, Teradata achète la plateforme Appoxee pour le marketing d’applis. En 2017, Teradata acquiert la startup StackIQ basée à San Diego.

Quels sont les avantages de Teradata ?

Teradata présente plusieurs avantages majeurs. Il s’agit d’une suite complète de services dédiés au Data Warehousing.

En outre, le système est basé sur une architecture ouverte. Il est donc possible d’incorporer les nouveaux appareils plus rapides dès qu’ils apparaissent.

La capacité de Teradata est également un point fort, puisque la plateforme peut prendre en charge plus de 50 petabytes de données. Le Service Workstation permet une vue d’ensemble unique pour un large système multi-noeud.

Par ailleurs, Teradata est compatible avec une large variété d’outils Business Intelligence permettant d’agréger des données. Il est aussi possible de l’utiliser comme un point de contrôle unique pour la gestion de base de données.

Ses performances sont élevées, une large diversité de requêtes est prise en charge. Il est possible de mener des analyses directement dans la base de données, et les workloads peuvent être gérés de façon sophistiquée.

Enfin, Teradata permet d’utiliser les mêmes données pour de multiples options de déploiement. Le coût total est relativement bas, et cette solution est simple à configurer, à maintenir et à administrer.

Les fonctionnalités de Teradata

Plusieurs fonctionnalités font la force de Teradata. L’élasticité linéaire permet de traiter de larges volumes de données, en ajoutant des noeuds pour augmenter les performances du système.

Cette plateforme est basée sur une architecture de traitement massivement parallèle. Cela signifie qu’elle offre un parallélisme illimité, permettant de diviser les larges tâches en tâches plus petites et de les exécuter en parallèle.

L’optimiseur permet de prendre en charge jusqu’à 64 joins sur une requête. Des fonctionnalités de chargement et de déchargement permettent de déplacer les données vers ou depuis le système.

Notons aussi qu’il est possible de connecter le système MPP de Teradata à des systèmes comme un mainframe ou un NAS. Grâce à la prise en charge SQL, Teradata permet d’interagir avec les données stockées en tableau.

Différents outils permettent l’import et l’export de données en provenance de ou vers les systèmes Teradata comme FastExport, FastLoad, MultiLoad et TPT. La distribution automatique de données permet de répartir les données entre les disques sans intervention manuelle.

L’architecture Teradata

L’architecture de traitement massivement parallèle de Teradata repose sur trois principaux composants : le moteur de Parsing, BYNET, et les Access Module Processors (AMP).

Le Parsing Engine analyse les requêtes, et prépare le plan d’exécution. Il gère les sessions pour les utilisateurs, optimise et envoie les requêtes.

Dès que le client exécute les requêtes pour l’insertion d’enregistrements, le Parsing Engine envoie les enregistrements à la couche de Message Passing : BYNET. Il s’agit d’un composant logiciel et hardware offrant des capacités de networking. Il permet aussi de retrouver les enregistrements et de les envoyer vers l’AMP ciblée.

Un AMP ou Access Module Processor stocke les enregistrements sur les disques. Il gère une portion de base de données, une portion de chaque tableau, et effectue les tâches associées à la génération de résultats comme le tri, l’agrégation et les joins.

En résumé, lorsque le client exécute une requête de récupération d’enregistrement, le Parsing Engine envoie une requête à BYNET. Puis, BYNET envoie la requête aux AMPs appropriées.

Les AMPs effectuent les recherches en parallèle et reconnaissent les enregistrements demandés. Ils les voient à BYNET, qui les transmet au Parsing Engine. Enfin, le moteur les envoie au client.

Applications et cas d’usage

Teradata est exploité pour une large variété d’applications. On l’utilise par exemple pour la gestion de données de clients, afin d’entretenir des relations sur le long terme avec les clients.

Cette solution permet aussi la gestion des ” Master Data “, et aide à développer un environnement où ces données peuvent être utilisées, synchronisées et stockées.

En outre, Teradata peut être utilisé pour la gestion des finances et des performances. La plateforme aide les entreprises à améliorer la vitesse et la qualité de leur reporting financier. Ceci permet de réduire les coûts d’infrastructure, et de gérer les performances de façon proactive.

La chaîne logistique peut aussi être optimisée, ce qui impacte positivement le service client, réduit les cycles et minimise les inventaires. De même, Teradata permet de prédire la demande afin de réaliser des stocks appropriés.

Secteurs d’activité et industries

On utilise Teradata dans différents secteurs d’activité et industries. Dans le domaine de la finance, cette solution permet aux entreprises d’améliorer l’expérience client grâce à des prises de décisions basées sur les données et des services personnalisés. Les organisations peuvent aussi préparer des rapports financiers de meilleure qualité.

Le secteur de la fabrication utilise Teradata pour l’analyse de données. Ceci permet de générer des insights très utiles pour la croissance et l’innovation. Ces insights générés à partir de diverses sources de données aident les organisations à réduire leurs charges, à gagner en efficacité et à optimiser leurs processus.

Dans le secteur de la santé, Teradata permet l’analyse de données de patients. Il devient alors possible de leur offrir une meilleure qualité de service. Les fournisseurs de santé peuvent intégrer des données en provenance de sources diverses afin de développer des insights permettant de surmonter les défis.

L’industrie du retail se transforme face à la concurrence, aux changements de la demande, et au besoin d’augmenter les marges. Avec Teradata, il est possible d’analyser les données pour optimiser les prévisions de demande et l’expérience client. Ce système permet une approche data-driven à la résolution de problèmes.

Les sociétés de transport utilisent Teradata pour capturer et organiser les données liées aux clients, aux opérations, à la logistique ou aux stratégies. Une approche data-driven permet d’optimiser les plannings des employés, le marketing et la distribution.

Les différences entre Teradata et les autres RDBMS

Il existe de nombreux RDBMS sur le marché. Toutefois, Teradata tire son épingle du jeu sur plusieurs points.

Tout d’abord, son architecture ” Shared Nothing “ se distingue des architectures habituelles ” Shared Everything “. En termes de traitement, elle peut atteindre plusieurs millions d’instructions par seconde contre seulement plusieurs milliers par seconde pour un RDBMS classique.

En outre, alors qu’un RDBMS traditionnel offre seulement un retrieval FASI, Teradata offre de meilleures options. Son parallélisme est inconditionnel, alors qu’il est généralement conditionnel et imprédictible sur la plupart des systèmes.

Autre point fort : Teradata permet le ” bulk load “. Son élasticité linéaire fait aussi la différence.

Le buffer de base de données unique est utilisé par toutes les unités de parallélisme, au même titre que le Data Store. D’ordinaire, le contrôle de requête transfère les fonctions à l’unité de parallélisme détenant les données.

Enfin, Teradata permet de stocker des terabytes de données. La plupart des RDBMS sont limités aux gigabytes.

Quelle différence entre traitement massivement parallèle et multi-traitement symétrique ?

L’architecture MPP (traitement massivement parallèle) de Teradata repose sur un système informatique attaché à de multiples unités arithmétiques indépendantes ou à des microprocesseurs entiers tournant en parallèle.

Elle s’oppose à une architecture de multi-processing symétrique (SMP), où un CPU partage la même mémoire. En conséquence, le code exécuté sur un système peut affecter la mémoire utilisée par un autre.

Dans le cas d’une architecture MPP, les bases de données peuvent être étendues en ajoutant de nouveaux CPU. Dans une architecture SMP, un seul CPU est utilisé pour effectuer des recherches de bases de données.

Au sein d’un environnement MPP, les performances sont améliorées puisque les ressources ne sont pas partagées entre des ordinateurs physiques. Ce n’est pas le cas sur une architecture SMP, où le workload pour un job parallèle est distribué entre les processeurs du système.

Enfin, les performances d’une architecture MPP sont linéaires et augmentent proportionnellement au nombre de noeuds. Les bases de données SMP peuvent être exécutées sur multiples serveurs, mais les ressources sont partagées.