L’IA n’a plus de données pour se nourrir, et c’est un grave problème

L'IA utilise des données qualitatives et quantitatives pour assurer son efficacité. Celles-ci se raréfient et cela pourrait compliquer le développement de la technologie.

Il faut savoir que la science de la donnée se trouve au cœur du développement de l'intelligence artificielle. Les modèles de langage se nourrissent d'un volume considérable d'informations pour apprendre et pour acquérir de nouvelles capacités. Il ne s'agit pas seulement d'une question de quantité, l'IA a aussi besoin de données qualitatives.

Pénurie de données dès 2026 ?

Les données qualitatives ne sont pas inépuisables. Des chercheurs qui travaillent sur la raison artificielle alertent depuis près d'un an sur la pénurie de ces données. Ce papier disponible sur l'archive en ligne arXiv détaille leurs inquiétudes.

En effet, leurs prévisions annoncent que les entreprises d'IA pourraient manquer de données de haute qualité dès 2026. Ces compagnies auraient alors à se tourner vers des données de qualité moindre. Mais même ces dernières pourraient également ne plus suffire entre 2030 et 2060.

Rita Matulionyte a évoqué cette situation dans un récent essai publié sur le site The Conversation. Pour information, cette intervenante est professeure en droit des technologies de l'information à l'université Macquarie de Sydney, en Australie.

Les données synthétiques au lieu des données naturelles

Compte tenu de la quantité de données dont les systèmes IA ont besoin pour fonctionner et s'améliorer, les entreprises spécialisées se trouvent dans une position précaire. La remarquable évolution des capacités des modèles de langage vient du fait que les développeurs les alimentent avec davantage de données.

Si l'offre de données stagne, le secteur va également connaître un ralentissement notable. Les données synthétiques constituent la solution pour Matulionyte.

Dans la recherche et le développement de l'intelligence artificielle, les données qualitatives font référence aux données naturelles. À noter que ces dernières sont générées par les humains. Ces données naturelles sont ainsi en opposition au contenu synthétique provenant des IA génératives.

Nourrir l'IA avec des données synthétiques, une solution viable ?

L'utilisation de données synthétiques peut totalement briser un modèle de langage. Des études démontrent que l'entraînement avec du contenu généré avec l'intelligence artificielle nuit significativement à l'efficacité du modèle obtenu. L'IA générative nourrit avec ce type de contenu peut notamment manquer de pertinence et de variété dans ses résultats.

Les modèles alimentés au contenu synthétique sont moins efficaces. Toutefois, cela n'empêche pas certaines entreprises d'expérimenter avec ce type de données.

Une alternative au contenu synthétique serait de mettre en place une ferme de données naturelles. Des centaines de personnes, voire des milliers, se retrouveraient alors dans un gigantesque hangar avec un smartphone ou un ordinateur pour chacune d'elles. Leurs activités quotidiennes généreraient alors des données naturelles.

La solution semble pratique au premier abord. Néanmoins, sa réalisation pose de nombreux problèmes, notamment pour les entreprises du secteur de l'intelligence artificielle.

En principe, une entreprise spécialiste de l'IA peut solliciter une collaboration avec une entité disposant d'une grande quantité de données de haute qualité. C'est sans doute ce qui a motivé le rapprochement entre Anthropic et les deux géants de l'Internet, Google et Amazon.

Restez à la pointe de l'information avec LEBIGDATA.FR !

Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités pour garder une longueur d'avance.

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *