Accueil > Dossiers > Big Data 2020 : tendances et prédictions pour l’année à venir
big data 2020 tendances prédictions

Big Data 2020 : tendances et prédictions pour l’année à venir

Découvrez les prédictions des experts industriels concernant les tendances et les nouveautés du Big Data en 2020. Une bonne façon d’anticiper les changements à venir afin d’établir la feuille de route de votre entreprise…

Alors que 2019 touche à sa fin, l’heure est venue de se tourner vers le futur. Que nous réserve l’année 2020 pour le Big Data et l’analyse de données ? Réponse à travers les prédictions d’experts industriels et autres spécialistes

Hadoop : faut-il enterrer l’éléphant ?

En 2019, Hadoop a dû faire face à une année particulièrement difficile. Cependant, il est peut-être encore tôt pour annoncer la fin définitive de ce framework. Selon Haoyuan  » HY  » Li, fondateur de Alluxio, le stockage Hadoop sous forme HDFS est effectivement voué à disparaître. Son coût et sa complexité, et le fait que le calcul ne soit pas extensible sur HDFS, le rendent inadapté aux contraintes actuelles des entreprises.

Désormais, les utilisateurs ont besoin de capacité de calcul extensible à volonté et disponible sur le Cloud pour profiter d’insights en temps réel. Il sera donc nécessaire de transférer les données stockées sur HDFS vers le système le plus efficace et optimisé qu’il s’agisse d’un stockage Cloud ou sur site.

En revanche, l’expert estime que d’autres composants de l’écosystème Hadoop dédiés au traitement et au calcul ont encore de beaux jours devant eux. C’est notamment le cas d’Apache Spark et de Presto.

Le stockage objet pour structurer les données

Face au ralentissement des déploiements de Data Lakes HDFS, le stockage objet pourrait devenir la nouvelle approche de prédilection selon Jon Toor, CMO de Cloudian. D’après ses prédictions, de plus en plus d’entreprises opteront pour le stockage objet en 2020 pour créer des données structurées à partir de données non structurées. Ceci permettra d’utiliser les métadonnées pour  » donner sens au tsunami de données générées par les workloads IA et ML « .

De même, selon le CEO de Thoughtspot, Sudheesh Nair, la fin d’Hadoop n’est que la fin d’un cycle pour le Big Data. Désormais, face à l’augmentation du volume de données et au besoin d’agilité, les entreprises développent leurs propres Data Lakes ou Data Warehouses ou se tournent vers le Cloud. Cette tendance devrait se poursuivre en 2020.

La nécessité de comprendre la Data Gravity

De son côté, le CTO de Digital Realty considère que les entreprises doivent comprendre le concept de  » Data Gravity «  pour surmonter les obstacles de la transformation digitale. Lorsque les données prennent du volume, une force similaire à la gravité les rend plus difficiles à transférer tout en attirant encore plus de données.

De plus, toujours selon Sharp, la plupart des entreprises ne peuvent suivre la vitesse à laquelle les données sont générées et doivent gérer des données en provenance de multiples sources qu’il est difficile de migrer ou d’utiliser efficacement. C’est cette  » Data Gravity  » qui empêche les initiatives de transformation digitale d’aboutir.

En 2020, les entreprises tenteront donc de remédier au problème de Data Gravity en approchant leurs applications des sources de données plutôt qu’en transportant des ressources vers une location centrale. En relocalisant le trafic, l’analyse et la gestion de données, les entreprises seront plus à même de les contrôler.

L’IA à la rescousse du Big Data

Aux yeux de Beaumont Vance de TD Ameritrade, à défaut d’accumuler toujours plus de données, les entreprises peuvent faire meilleur usage des données à leur disposition en utilisant les technologies déjà existantes.

Actuellement, les entreprises utilisent moins de 20% de toutes leurs données internes. Cependant, grâce aux nouvelles techniques d’intelligence artificielle, il estime que les 80% de données inutilisées seront utilisables et plus faciles à interpréter.

L’intelligence artificielle est donc en passe de rendre le Big Data encore plus utile. Des questions auxquelles il était jusqu’à présent impossible de répondre pourront être élucidées très facilement.

À l’inverse, aux yeux de Arka Dhar, CEO de Zinier, il est aussi possible d’entraîner l’IA grâce au  » Small Data « . Plutôt que d’utiliser des ensembles de données massifs pour entraîner les algorithmes, les Data Scientists pourront atteindre les mêmes résultats avec beaucoup moins de données. Ceci est lié aux progrès réalisés dans le domaine de l’IA.

Selon Haoyuan  » HY  » Li de Alluxio, les équipes d’analyse de données et d’intelligence artificielle seront amenées à fusionner au sein des entreprises. Pour cause, l’intelligence artificielle est la prochaine étape dans le domaine de l’analyse de données structurées.

Les modèles statistiques d’antan ont convergé avec l’informatique pour donner naissance à l’intelligence artificielle et au Machine Learning. C’est pourquoi les équipes IA, analytics et données doivent collaborer pour libérer tout le potentiel des données qu’elles utilisent.

De même, Eugene Roytburg de Fractal Analytics estime que l’IA et le Machine Learning feront désormais partie de l’analyse de données et que leurs champs d’application seront mieux définis. Jusqu’à présent, il estime que beaucoup d’entreprises peinent à distinguer les deux.

Néanmoins, les questions de confidentialité et de protection des données occuperont une place plus importante. Selon Suraj Amonkar de Fractal Analytics, la communauté IA continuera à débattre et à avancer autour des questions de gouvernance, de confidentialité, de sûreté et d’éthique liées à l’intelligence artificielle.

À compter de 2020, les entreprises pourraient donc prendre en compte les questions éthiques pour concevoir de nouvelles applications d’intelligence artificielle. Ceci pourrait devenir la nouvelle norme. Le CEO d’Eugenie.ai, Soudip Roy Chowdhary, estime même que les efforts de recherche seront déployés pour bâtir un écosystème IA soucieux de la confidentialité et de l’équité.

Le stockage basé mémoire gagne en popularité

Les systèmes de stockage basés-mémoire devraient gagner en popularité en 2020, selon le CEO de GridChain, Abe Kleinfled. Pour cause, le stockage sur mémoire offre plus de possibilités d’application que le stockage sur disque.

Par exemple, seul ce type de stockage permet actuellement de comparer les données en temps réel avec les données historiques stockées sur un Data Lake à un coût abordable. On peut notamment se tourner vers un hub d’intégration de données  » in-memory «  basé sur une plateforme comme Apache Ignite intégrant Spark, Kafka et un Data Lake comme Hadoop. L’an prochain devrait donc être marqué par un gain de popularité massif pour les solutions de computing in-memory.

Le Big Data : rêve ou cauchemar ?

Selon Eric Raab et Kabir Choudry, tous deux vice présidents chez Information Builders, le Big Data peut être un rêve ou un cauchemar. A leurs yeux, ceux qui ont investi dans les solutions permettant de gérer, d’analyser et d’utiliser les données correctement profiteront d’une vue d’ensemble plus claire sur leurs entreprises et sur la route vers le succès.

En revanche, ceux qui ne l’ont pas fait  » resteront avec une montagne d’informations «  qu’ils ne pourront pas vraiment comprendre ou exploiter. Leurs décisions seront donc mal aiguillées ou leurs données totalement inutiles.

Todd Wright, directeur des solutions Data Privacy et de Data Management chez SAS partage un avis similaire. Selon lui, la gestion du Big Data sera toujours aussi difficile en 2020 et l’orchestration, la découverte, la préparation des données ou la gestion de modèle seront à nouveau des priorités pour les entreprises.

Pour cause, rappelons que le World Economic Forum prédit que le volume de données produit par l’humanité atteindra 44 zettabytes en 2020. Si les entreprises n’ont pas les modèles analytiques et les programmes de gestion de données permettant d’accéder, d’intégrer, de nettoyer et de gouverner les données pour obtenir des insights à partir de ces données grâce aux avancées dans les domaines de l’IA, du Machine Learning ou de l’analyse, toutes ces données seront générées en vain.

L’essor du stockage informatique

Selon Nader Salessi, CEO et fondateur de NGD Systems, les entreprises cherchent désormais à remplir des disques NVMe aussi vite que possible pour accélérer le stockage et l’analyse des données notamment celles liées à l’IoT.

Cependant, cet expert estime que les NVMe ne sont pas suffisamment rapides en eux-mêmes pour analyser et traiter des pétabytes de données en temps réel. La solution au problème de la gestion et du mouvement des données serait donc le stockage informatique ou computational storage.

Le Data Fabric pour simplifier l’intégration des données

Face à l’explosion du volume de données et la multiplication des cas d’usage de l’IA et du Machine Learning, l’intégration des données est plus complexe que jamais. Selon Denodo, la solution pourrait être le concept architectural de la Data Fabric.

Cette architecture permettra d’accéder en temps réel aux ensembles de données structurés, non structurés ou semi-structurés. Les entreprises pourront donc se focaliser sur le Machine Learning et l’intelligence artificielle.

Grâce aux progrès dans le domaine de l’internet des objets, une Data Fabric dynamique offre  » un accès rapide, sécurisé et fiable «  à de vastes volumes de données par le biais d’une architecture logique de Data Warehouse.

La fin de la pénurie de talents ?

Le manque de spécialistes de l’analyse de données reste à l’heure actuelle un fléau. Selon Hugh Owen de Microstrategy, toutefois, ce problème pourrait être résolu en 2020 si les entreprises forment leurs employés afin qu’ils acquièrent les compétences requises. Cette approche peut s’avérer plus pertinente que le recrutement de spécialistes déjà formés.

En revanche, selon John LaRocca de Fractal Analytics, la pénurie de talents frappera les entreprises de plein fouet en ce qui concerne l’intelligence artificielle. La demande en solutions IA dépassera largement le nombre de talents disponibles, et les organisations devront s’adapter en faisant en sorte que les non-professionnels puissent développer des applications IA.

C’est la raison pour laquelle, comme le souligne Marcus Borba de Borba Consulting, on constate une demande croissante pour les modèles de Machine Learning prêts à l’emploi pouvant être utilisés sans expertise.

Le Cloud poursuit sa percée

Selon Eric Raab et Kabir Choydry de Information Builders, les entreprises se tourneront vers le Cloud pour profiter de la praticité, de l’extensibilité et de la flexibilité des solutions Cloud-Native en 2020. Pour cause, ces solutions ont fait leurs preuves et les entreprises leur font confiance.

De même, David Richards, CEO de WANdisco, s’attend à ce que des milliers d’entreprises créées avant l’apparition du Cloud décident de  » se joindre à la fête  » en 2020. Ceci devrait entraîner une forte croissance du Cloud. Les entreprises commenceront par migrer leurs données vers le Cloud, afin de poser les bases d’un environnement optimal pour les applications d’intelligence artificielle et de Machine Learning.

Enfin, Sandeep Dutta de Fractal Analytics s’attend à ce que les entreprises continuent à créer des Data Lakes sur le Cloud. Ceci leur permet d’améliorer la qualité de leurs ensembles de données. Le Cloud permet par ailleurs l’innovation sur le plan du hardware pour faire baisser les prix tout en améliorant les performances puisque les bases de données tourneront sur du hardware de plus en plus spécialisé.

L’IA et les EKG contre les silos de données

Aux yeux de Sauray Chakravorty, principal Data Scientist chez Brillio, l’intelligence artificielle sémantique et les EKG (entreprise knowledge graphs) permettent de résoudre le problème des silos de données et des ensembles de données disparates.

Grâce aux EKG, les entreprises peuvent se débarrasser des incohérences sémantiques au sein de leurs ensembles de données. En les combinant avec l’IA sémantique, il est possible de libérer tout le potentiel des Data Lakes et du Big Data.

L’année de la Storage-Class Memory ?

Le CEO et co-fondateur de MemVerge, Charles Fan, estime que 2020 pourrait être l’année de l’envol pour la storage-class memory. Les Data Centers  » memory-centric  » pourraient permettre de répondre à la hausse de demande des applications de Data Centers, tout en offrant une vitesse de traitement accrue.

L’expert est persuadé que les innovations dans le domaine de l’informatique vont permettre d’ouvrir une topologie nouvelle entre les unités CPU et les unités de mémoire. Ainsi, la couche calcul et la couche stockage pourraient entamer leur convergence au sein des Data Centers memory-centric.

C’est également l’avis de Bob Moul, CEO de Circonus, qui est convaincu que nous nous dirigeons rapidement vers une architecture combinant stockage et traitement pour les déploiements Edge. Alors que Gartner prédit 20 milliards d’appareils IoT en 2020, il est nécessaire pour les entreprises de pouvoir adopter des solutions de stockage extensibles pour s’adapter à cette croissance massive.

Le Dark Data enfin exploité

Selon Rob Perry, vice président chez ASG Technologies, le Dark Data pourrait enfin être exploité en 2020. Ce terme désigne les nombreuses données collectées sans être utilisées par les entreprises.

Or, ces données peuvent contenir de précieuses informations pour les entreprises. Elles peuvent aussi comporter des informations personnelles à protéger voire à supprimer. Au cours de l’année à venir, les entreprises pourraient enfin se pencher sur le Dark Data.

La gouvernance des données est une priorité

La gouvernance, la protection et la confidentialité des données seront plus importantes que jamais en 2020. C’est ce que prédit Wright de SAS. Selon lui, l’apparition de lois sur la protection des données comme le RGPD en Europe contraint les entreprises à développer des programmes de gouvernance des données tenant compte de la confidentialité.

De même, Bailis de Sisu s’attend à ce que les nouveaux outils de gouvernance permettent d’assurer la confidentialité et l’intégrité des données jusqu’à ce qu’elles disparaissent à nouveau en arrière-plan.

Les bases de données Open Source gagnent du terrain

Comme le rappelle Karthik Ranganathan, fondateur et CTO de Yugabyte, les bases de données Open Source représentaient 0% du marché il y a encore dix ans. Aujourd’hui, elles accaparent environ 7% de parts du marché.

Cette tendance devrait s’accentuer en 2020. Face aux avancées technologiques rapides, les fournisseurs de bases de données prennent conscience qu’un modèle 100% open source est le plus avantageux puisqu’il permet de profiter d’une maturité logicielle plus longue à atteindre avec un modèle  » freemium « .

Cependant, il faut rappeler que plusieurs entreprises ont au contraire choisi de s’éloigner du modèle Open Source en 2019. C’est le cas de Confluent, Redis ou encore MongoDB. Ainsi, le co-fondateur de Rockset, Dhruba Borthakur, estime qu’il est plus probable que l’industrie se tourne vers les  » open services «  que vers les logiciels open source.

Selon lui, compte tenu du fait que le Cloud a totalement changé la façon dont les logiciels sont distribués et monétisés, il est probable que les nouvelles technologies soient de moins en moins proposées en open source.

A la place, ce sont les services liés aux données qui seront ouverts. C’est particulièrement probable pour le domaine du Data Management. Tout comme la décennie qui s’achève était celle de l’Open Source, celle qui va débuter sera celle de l’Open Service…

Kubernetes devient mainstream

En 2019, la plateforme d’orchestration de container open source Kubernetes (K8s) a connu un véritable succès dans le domaine de la tech. Selon Pallanck de O’Reilly, cette tendance va se poursuivre en 2020. La vitesse à laquelle les entreprises adoptent cette technologie va augmenter.

De même, Haoyuan Li d’Alluxio s’attend à ce que les workloads d’analyse de données et d’intelligence artificielle soient de plus en plus souvent déployés sur Kubernetes. C’est également l’avis de Stephen Fabel de Canonical, selon qui  » Kubernetes est devenu part intégrante de l’infrastructure Cloud moderne  » et sert désormais de portail de développement et d’expérimentation pour les nouvelles technologies.

Cependant, cet expert s’attend aussi à ce que les entreprises cherchent à déterminer si Kubernetes est réellement l’outil qui répond à leurs besoins. Pour cause, dans certaines situations, cette technologie peut se révéler complexe à gérer et nécessiter des compétences spécialisées dont les organisations ne disposent pas toujours.

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Send this to a friend