2026-05-19T10:49:01+02:00

Sora, c’est voué à l’échec : ce ponte de l’IA ne croit pas à l’approche d’OpenAI

Elina S. Publié le 26 février 2024 Mis à jour le 19 mai 2026 2 minutes de lecture IA générative, Intelligence artificielle

Récemment, OpenAI a publié Sora, une IA révolutionnaire de conversion texte-vidéo capable de générer 60 secondes de contenu animé au rendu exceptionnel. Si tous reconnaissent la qualité des effets visuels, certains, dont ce gourou de l’IA, estiment que Sora est voué à l’échec, tout simplement parce qu’elle n’a pas la capacité d’appréhender le monde physique.

Sora : une incompréhension évidente du monde physique

En exploitant la puissance du Deep Learning et en repoussant les limites du possible, Sora ouvre un monde de possibilités aux créateurs de contenus vidéos de toutes sortes. Pour OpenAI, Sora ne génère pas de simples vidéos, mais simule notre monde.

L’IA texte-vidéo d’OpenAI est une technologie pionnière capable de générer des scènes réalistes à partir de descriptions en langage naturel. Produisant des effets visuels époustouflants, l’imagination des utilisateurs restent les seules limites de Sora.

OpenAI a affirmé que Sora est « une voie viable pour étendre les modèles de génération vidéo pour construire un simulateur universel du monde physique ». Sur ce point, Sora a reçu de vives critiques de la part de certains experts IA.

Yann LeCun, un vrai gourou de l’IA et véritable ponte du Deep Learning, estime que Sora d’OpenAI ne comprend pas le monde physique. Générer des vidéos réalistes à partir de mots-clés ne signifie en aucun cas que le système comprend réellement le monde physique.

Sora est voué à l’échec, selon Yann LeCun

Yann LeCun, le boss de la division IA de Meta, s’empare de son compte X pour partager sa vision des choses. Quand OpenAI ambitionne de faire de Sora un simulateur du monde réel, LeCun voit rouge.

« Si votre objectif est de former un modèle mondial pour la reconnaissance ou la planification, utiliser la prédiction au niveau des pixels est une très mauvaise idée », écrit-il dans sa publication sur X.

Modeling the world for action by generating pixel is as wasteful and doomed to failure as the largely-abandoned idea of "analysis by synthesis".

Decades ago, there was a big debate in ML about the relative advantages of generative methods vs discriminative methods for…
— Yann LeCun (@ylecun) February 19, 2024

Il explique que l’IA générative fonctionne bien avec le texte, ce dernier étant discret et comportant un nombre fini de symboles. Cependant, les entrées sensorielles génèrent un niveau de complexité plus élevé.

LeCun estime que les modèles génératifs pour les entrées sensorielles échoueront parce qu’il est trop difficile de gérer l’incertitude de prédiction des entrées sensorielles continues de haute dimension. « Modéliser le monde pour l’action en générant des pixels est tout aussi inutile et voué à l’échec », soutient-il.