Les experts de Bytedance Research et de l’Université Tsinghua ont mené une étude sur Sora d’OpenAI. Résultat : des vidéos super stylées, mais elle se perd quand il s’agit de physique.
Les générateurs vidéo d’intelligence artificielle, comme Sora d’OpenAI, fascinent par leurs créations visuelles. Elles créent des vidéos incroyablement réalistes, capables de nous transporter. Mais, derrière cette façade impressionnante se cache un secret dérangeant… Sora, malgré sa puissance, échoue à comprendre les lois fondamentales de la physique. Une étude récente a révélé cette limite.
OpenAI Sora et la physique : un monde qu’elle ne maîtrise pas
J’avoue que depuis sa présentation en février 2024, Sora sait vraiment impressionner. Elle génère des vidéos réalistes qui captivent par leur fluidité et leur précision visuelle. Mais selon l’étude, lorsqu’elle est confrontée à des principes physiques simples, ses limites apparaissent immédiatement.
Par exemple, les chercheurs ont testé Sora en simulant des balles se déplaçant à différentes vitesses. Lorsque les trajectoires devenaient plus complexes, les résultats devenaient incohérents. Les lois de la physique semblent totalement ignorées.
Il faut aussi savoir que ce comportement étrange résulte de sa méthode d’apprentissage. Sora ne déduit pas de lois universelles. À la place, elle mémorise des modèles issus de ses données d’entraînement.
Je note que ces modèles suivent une hiérarchie bien précise : la couleur est prioritaire, suivie de la taille, puis de la vitesse et enfin de la forme. Cela explique sûrement pourquoi elle ne peut pas s’adapter à des situations qu’elle n’a jamais vues.
Néanmoins, dans des scénarios familiers, Sora donne de très bons résultats. Par exemple, si elle a été entraînée avec des objets se déplaçant à une certaine vitesse, elle les reproduira parfaitement.
Mais dès que la vitesse ou la direction change, tout s’effondre. Cela montre une limite cruciale : cette IA ne généralise pas. Elle ne sait pas appliquer des principes universels à de nouveaux contextes.
Augmenter les données : une solution inutile ?
Pour dépasser ces limites, OpenAI a exploré la possibilité d’augmenter la taille de Sora et d’élargir ses données d’entraînement. Mais, selon l’étude, cette stratégie ne suffit pas.
Les chercheurs ont démontré que même des modèles plus volumineux échouent face à des principes physiques simples lorsqu’ils sortent de leur cadre d’entraînement.
Bingyi Kang a noté que, dans des cas spécifiques, ces IA peuvent encore être performantes. Si les données couvrent parfaitement un scénario, les résultats sont impressionnants.
Cependant, dès qu’une situation sort de ce cadre, les failles deviennent visibles. « Personnellement, je pense que, s’il existe un scénario spécifique et que la couverture des données est suffisamment bonne, un modèle mondial sur-ajusté est possible », a-t-il déclaré.
Cela explique sûrement pourquoi des experts comme Yann LeCun, responsable de l’IA chez Meta, restent sceptiques. Lorsque OpenAI a dévoilé Sora comme le « GPT-1 de la vidéo », LeCun a critiqué cette approche. Selon lui, prédire le monde en générant des pixels est une méthode inefficace, voire vouée à l’échec.
Il faut aussi noter que Sora, malgré ses failles, reste prometteuse dans certains domaines. OpenAI affirme que cette IA possède déjà une compréhension partielle des interactions physiques et de la géométrie 3D. D’autres entreprises, comme RunwayML et Google DeepMind, explorent des concepts similaires, mais l’étude montre que ces ambitions restent prématurées.
Alors, Sora peut-elle vraiment devenir un modèle universel ? Une IA qui ne comprend pas les lois physiques peut-elle vraiment prétendre généraliser ? Yann LeCun a résumé ce défi : « Notre étude suggère que la mise à l’échelle naïve est insuffisante pour que les modèles de génération vidéo découvrent des lois physiques fondamentales. »
Et vous ? Pensez-vous que les IA doivent comprendre la physique pour être utiles ? Partagez votre avis en commentaire !
- Partager l'article :