Chut… vous entendez ça ? C’est le doux bourdonnement de la guerre des IA vidéo qui s’intensifie. Et cette fois, c’est Sora 2, propulsé par ChatGPT-5, qui entre en scène pour détrôner Veo 3 de Google.
OpenAI prépare discrètement le lancement de Sora 2, la nouvelle version de son générateur de vidéos. Comment on le sait ? Eh bien, des traces de cette petite merveille ont été repérées sur les serveurs d’OpenAI par Tibor Blaho, réputé pour ses prédictions et analyses d’IA sur X.
Sora 2? pic.twitter.com/Wrij7q3XRq
— Tibor Blaho (@btibor91) July 21, 2025
Rien d’officiel n’a encore été annoncé, pour l’instant. Cependant, plusieurs signaux convergent. Tous votent pour une Sora 2 qui dépasse Veo 3, le modèle vidéo d’IA signé Google. Qu’elle sera à même de transformer nos mots en scènes vivantes, avec du son, des voix, et une ambiance digne d’un court-métrage.
OpenAI doit se mettre au son pour pulvériser Google
À sa sortie, Sora avait ébloui par la qualité de ses visuels. Toutefois, aussi charmants soient-ils, ils étaient muets. Côté ambiance sonore, on repassera.
Pendant ce temps, Google sortait Veo 3, avec de petits extraits vidéos agrémentés de sons synchronisés. On y voyait un homme verser du café au ralenti. Et on entend parfaitement le ploc ploc du liquide, le tintement de la tasse, et même le fond sonore d’un bistrot bien animé.
Alors, pour prétendre au trône, Sora 2 va devoir faire beaucoup mieux. Intégrer des voix crédibles, des effets sonores convaincants et une synchronisation labiale qui ne donne pas l’impression que le personnage lit dans sa barbe.
Bien entendu, le modèle d’OpenAI pourrait aussi marquer un point ailleurs. S’il peut produire des vidéos de 30 secondes avec une qualité constante, c’est certain qu’il séduira plus les créateurs.
D’autant plus que Sora est déjà capable d’étirer ses vidéos jusqu’à 20 secondes. Ce, tout en étant connecté à ChatGPT pour scénariser plus intelligemment. Pour info, Veo est limité à de très courts formats.
Quoi qu’il en soit, pour le moment, ni Veo ni Sora ne permettent de générer des scènes impliquant de vraies personnes, de la violence ou du contenu sous copyright. Mais l’ajout de l’audio pourrait bien changer la donne, et pas forcément pour le meilleur.
- Partager l'article :