Le phénomène de Data Gravity survient quand le volume de données stocké par votre entreprise augmente. Découvrez quelles sont les conséquences de ce phénomène, et comment y faire face.
Les applications reposant sur les données comme l’analyse Big Data, l’IA ou l’IoT sont désormais exploitées par de nombreuses entreprises. Cependant, en profitant de ces innovations, ces entreprises doivent aussi faire face au concept de gravité des données.
Qu’est-ce que la Data Gravity ou gravité des données ?
L’ingénieur logiciel Dave McRory a publié le concept de Data Gravity en 2010. Cette théorie postule que les données et les applications s’attirent mutuellement, exactement comme les objets physiques soumis à la loi de la gravité.
Cette métaphore illustre parfaitement ce phénomène technologique complexe. Les ensembles de données deviennent de plus en plus difficiles à déplacer au fur et à mesure qu’ils prennent du volume.
Les datasets restent fermement maintenus à leur emplacement initial, tout comme la pesanteur terrestre nous retient au sol. Ce principe d’attraction concerne également d’autres éléments clés du système informatique.
Les applications et la puissance de traitement subissent directement cette même force invisible. Ces ressources technologiques gravitent naturellement vers les bases de données les plus imposantes.
Quelles sont les conséquences de la Data Gravity pour les entreprises ?
Par le biais de technologies comme les appareils mobiles ou l’IoT, la transformation numérique génère d’immenses volumes de données au sein des entreprises. Il est impossible de gérer de tels volumes à l’aide d’une approche traditionnelle.
Habituellement, les plateformes et applications d’analyse de données sont incorporées à leurs propres stacks logiciels et matériels. Les données, quant à elles, sont stockées dans des SAN (Storage Area Network), NAS (Network-Attached Storage) ou Data Warehouses. Il est donc nécessaire de migrer ces données vers les plateformes analytiques comme Splunk ou Apache Iceberg les analyser.
Or, cette pratique devient inenvisageable pour des volumes de données massifs répartis entre différents systèmes de stockage. La migration des données vers les clusters analytiques devient alors complexe, coûteuse et risquée. C’est particulièrement le cas si vous souhaitez lancer un outil d’analyse sur le Cloud pour des données stockées sur site, et vice-versa.
Par conséquent, les entreprises doivent prendre des mesures pour faire face à la gravité des données. Il est nécessaire de changer la conception des architectures informatiques…
Comment faire face à la gravité des données ?
La première étape est de concevoir une architecture autour d’une plateforme NAS (network-attached storage) scale-out permettant la consolidation des données. Cette plateforme doit prendre en charge une large variété de workloads et d’applications traditionnelles ou nouvelles qui utilisaient auparavant différents types de stockage. Cette plateforme permet de gérer les données depuis un seul emplacement et de porter les applications et la puissance de traitement aux données.
La plateforme doit impérativement intégrer des fonctionnalités de sécurité, de protection des données et de résilience. L’accès aux ensembles de données doit être strictement contrôlé, et les données doivent rester disponibles même en cas de panne. De plus, toutes les applications et les données doivent profiter de cette protection de manière uniforme. Tel est l’avantage de ne conserver qu’une copie des données dans un système consolidé.
Par ailleurs, cette plateforme dédiée aux données doit être hautement extensible. Si vos besoins en termes de stockage augmentent massivement, elle doit être en mesure de s’y adapter. Toutefois, il est important que les coûts n’augmentent pas aussi vite que le volume de données.
C’est pourquoi la plateforme doit aussi permettre l’optimisation du stockage, aussi bien en termes de performances que de capacité. Pour ce faire, il doit être possible de choisir entre différents tiers de stockage. Les tiers les plus rapides et les plus chers seront dédiés aux données les plus fréquemment consultées, tandis que les tiers plus élevés et moins chers serviront aux données froides. Le système doit pouvoir déterminer automatiquement dans quel tiers stocker chaque donnée.
Pour finir, il est essentiel que votre plateforme de données soit compatible avec une large variété de plateformes et d’applications d’analyse et d’IA. Elle doit prendre en charge celles que vous utilisez aujourd’hui, mais aussi celles que vous utiliserez demain. Une architecture correspondant à ces critères vous permettra de faire face au problème de la gravité des données pour vos solutions Big Data et IA à grande échelle.
Comment mesurer l’impact de la Data Gravity sur votre infrastructure ?
Évaluer précisément la gravité des données demande d’analyser le ratio entre la masse de vos datasets et la latence des services associés. L’indicateur le plus fiable consiste à mesurer le temps nécessaire pour qu’une application distante accède à un volume de données massif sans dégradation de performance.
Plus ce délai augmente, plus l’attraction gravitationnelle de vos données force une centralisation de vos outils de calcul. Les architectes Cloud utilisent souvent des audits de flux pour identifier ces points de friction coûteux.
Mais cette analyse doit surtout inclure les frais de transfert, car la Data Gravity engendre souvent des coûts de sortie de données imprévus lors de l’utilisation d’environnements hybrides. Identifier ces zones de forte densité permet d’anticiper le déploiement de solutions de stockage scale-out avant que l’inertie numérique ne bloque votre agilité métier.
- Partager l'article :
