l'IA par l'IA

L’IA s’entraîne sur des textes écrits par l’IA et devient complètement folle

Des scientifiques de l’université Rice et de Stanford ont découvert que le fait d’alimenter les modèles d’IA avec du contenu généré par l’IA peut les rendre moins performants. En effet, sans suffisamment de données réelles dans chaque génération de la boucle autophagique, les futurs modèles génératifs peuvent perdre en qualité ou en diversité.

Les réseaux d’IA formés sur des sorties d’IA telles que l’image créée par un modèle de diffusion stable ont tendance à devenir « MAD ». Cela se produit après cinq cycles d’entraînement avec des données générées par l’IA. MAD est l’abréviation de Model Autophagy Disorder. Il décrit comment les modèles d’IA et la qualité de leurs résultats s’effondrent lorsqu’ils sont entraînés de manière répétée sur des données générées par l’IA.

L’autoconsommation va endommager le cerveau de l’IA

Les progrès spectaculaires des algorithmes d’IA générative pour l’imagerie, le texte et d’autres types de données ont conduit à la tentation d‘utiliser des données synthétiques. Ces données servent à former des modèles de nouvelle génération. La répétition de ce processus crée une boucle autophage (‘auto-consommation’) dont les propriétés sont mal comprises.

En effet, les modèles génératifs d’IA risque de devenir folle s’ils sont entraînés avec une quantité excessive de contenu généré par l’IA. En d’autres termes, sans « données réelles fraîches », les modèles génératifs sont condamnés à voir leur qualité (précision) ou leur diversité (rappel) décroître progressivement.

Selon les chercheurs, lorsque le modèle est entraîné à plusieurs reprises sur des contenus synthétiques, les informations marginales et moins représentées en périphérie commencent à disparaître. Le modèle commence alors à s’appuyer sur des données de plus en plus convergentes et de moins en moins variées. Par conséquent, il ne tarde pas à s’effondrer sur lui-même.

Des conséquences dans le monde réel ?

S’il s’avère que l’IA brise effectivement l’IA, cela aura des conséquences dans le monde réel. En fait, les modèles d’IA sont largement formés à partir de données en ligne récupérées. Ils sont de plus en plus imbriqués dans l’infrastructure de l’internet.

Les modèles d’IA ont été formés en récupérant des tonnes de données en ligne existantes. Et plus un modèle est alimenté en données, plus il s’améliore. Toutefois, à mesure que l’IA se répand sur l’internet, difficile pour les entreprises d’IA de s’assurer que leurs données d’entraînement ne comprennent pas de contenu synthétique. Cela pourrait nuire à la qualité et à la structure de l’internet ouvert.

L’étude soulève également des questions sur l’utilité des systèmes d’IA comme la Machine Learning qui ne nécessite pas d’intervention humaine. En effet, les résultats montrent que les modèles d’IA formés uniquement à partir de contenus synthétiques ne sont pas très utiles. Les chercheurs suggèrent que l’ajustement des poids des modèles pourrait contribuer à atténuer les effets négatifs de l’entraînement des modèles d’IA sur des données générées par l’IA.

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *