Sora, c'est voué à l'échec : ce ponte de l'IA ne croit pas à l'approche d'OpenAI

Sora, c’est voué à l’échec : ce ponte de l’IA ne croit pas à l’approche d’OpenAI

Récemment, a publié Sora, une IA révolutionnaire de conversion texte-vidéo capable de générer 60 secondes de contenu animé au rendu exceptionnel. Si tous reconnaissent la qualité des effets visuels, certains, dont ce gourou de l'IA, estiment que Sora est voué à l'échec, tout simplement parce qu'elle n'a pas la capacité d'appréhender le monde physique.

Sora : une incompréhension évidente du monde physique

En exploitant la puissance du Deep Learning et en repoussant les limites du possible, Sora ouvre un monde de possibilités aux créateurs de contenus vidéos de toutes sortes. Pour OpenAI, Sora ne génère pas de simples vidéos, mais simule notre monde

L'IA texte-vidéo d'OpenAI est une technologie pionnière capable de générer des scènes réalistes à partir de descriptions en langage naturel. Produisant des effets visuels époustouflants, l'imagination des utilisateurs restent les seules limites de Sora. 

OpenAI a affirmé que Sora est « une voie viable pour étendre les modèles de génération vidéo pour construire un simulateur universel du monde physique ». Sur ce point, Sora a reçu de vives critiques de la part de certains experts IA.

Yann LeCun, un vrai gourou de l'IA et véritable ponte du Deep Learning, estime que Sora d'OpenAI ne comprend pas le monde physique. Générer des vidéos réalistes à partir de mots-clés ne signifie en aucun cas que le système comprend réellement le monde physique.

Sora est voué à l'échec, selon Yann LeCun

Yann LeCun, le boss de la division IA de , s'empare de son compte X pour partager sa vision des choses. Quand OpenAI ambitionne de faire de Sora un simulateur du monde réel, LeCun voit rouge. 

« Si votre objectif est de former un modèle mondial pour la reconnaissance ou la planification, utiliser la prédiction au niveau des pixels est une très mauvaise idée », écrit-il dans sa publication sur X. 

Il explique que l'IA générative fonctionne bien avec le texte, ce dernier étant discret et comportant un nombre fini de symboles. Cependant, les entrées sensorielles génèrent un niveau de complexité plus élevé.

LeCun estime que les modèles génératifs pour les entrées sensorielles échoueront parce qu'il est trop difficile de gérer l'incertitude de prédiction des entrées sensorielles continues de haute dimension. « Modéliser le monde pour l'action en générant des pixels est tout aussi inutile et voué à l'échec », soutient-il. 

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *