2026-05-19T14:13:33+02:00

Les IA n’ont plus rien à manger ! C’est la pénurie de données d’entraînement

Rina R. Publié le 9 avril 2024 Mis à jour le 19 mai 2026 2 minutes de lecture Intelligence artificielle

Les données sont les bases de l’exploit d’une IA. Les références du secteur utilisent des datas centers massives pour mieux répondre aux requêtes des utilisateurs. Cependant, ces ressources ne sont pas illimitées. Actuellement, les intelligences artificielles traversent une pénurie de données.

Les IA ne peuvent pas fournir des réponses précises sans les données. Elles doivent traiter des documents, des vidéos, des audio, et même des images pour répondre aux attentes des utilisateurs. OpenAI s’est rendu compte de cette situation en 2021. L’entreprise a constaté qu’elle avait déjà étudié les contenus textuels en langue anglaise. Elle n’est pas la seule à se retrouver dans cette situation.

Google et OpenAI tentent de trouver des données pour leurs IA

Sans données, les IA ne peuvent exceller dans leurs zones de prédilection. OpenAI a alors lancé Whisper. Cet outil de transcription audio offre une nouvelle opportunité à l’entreprise. Il traite les vidéos YouTube tout en créant une base de données IA à GPT-4.

Cependant, Whisper ne s’arrêtait pas aux vidéos YouTube. Dans certaines situations, l’outil exploite les podcasts, ainsi que les livres audio. OpenAI s’aventure alors sur une zone épineuse en adoptant cette voie. Effectivement, les droits d’utilisation interdisent cette approche.

Google, de son côté, se trouve dans une position délicate. En suivant la logique, l’entreprise américaine doit porter plainte contre OpenAI. En effet, cette dernière manipule les données contre les conditions d’utilisation. Mais Google ne pouvait pas réagir, car elle a aussi choisi cette pratique.

Pour continuer à entraîner ses IA, le moteur de recherche de référence a été contraint d’alléger ses réglementations concernant les données.

Meta se trouve dans une position délicate

L’empire de Zuckerberg n’a pas suivi la stratégie des autres entreprises. Elle a adopté une voie assez particulière. Au lieu d’exploiter les données IA contre les réglementations, Meta tente de payer 10 dollars par livre. De ce fait, l’entreprise pourra obtenir tous les droits. Cependant, cette stratégie serait très difficile à mettre en place. Effectivement, les négociations concernant les droits d’utilisation sont très longues.

Toutefois, Meta pourra continuer à profiter des contenus sur ses réseaux sociaux. Mais la qualité ne sera pas au rendez-vous. Les données de formation des IA ne seront pas des bases tangibles pour fournir des réponses fiables.

Il reste encore une solution efficace

C’est une évidence, les renseignements actuels ne suffiront plus à entraîner les IA d’ici quelques années. Les entreprises concernées tentent de trouver de nouvelles bases de données pour résoudre ce problème. Mais les chances sont minces, car la majorité des informations sont déjà entre les mains des IA.

Toutefois, il existe une piste assez intéressante. Si on exploitait les contenus générés par l’IA ? Ces informations « synthétiques » seront peut-être la lumière au bout du tunnel. Par contre, il reste encore un inconvénient à résoudre. À force d’utiliser en boucle ces données, l’IA devient obsolète. Cette situation est très inquiétante. En effet, les erreurs vont se multiplier, et la qualité des réponses sera remise en question.