L’intelligence artificielle ne se contentera plus de discuter avec vous en ligne. Bientôt, elle comprendra aussi le monde qui vous entoure. Et pas juste en théorie, mais dans le concret grâce à Google.
Comment ? En fusionnant Gemini et Veo, son modèle de génération de vidéo. Le Directeur général de Google DeepMind Demis Hassabis l’a évoqué lors du podcast Possible, co-animé par Reid Hoffman de LinkedIn.
Un modèle d’IA deux en un
Depuis ses débuts, Gemini n’a jamais été un modèle comme les autres. Contrairement aux IA classiques qui se contentent de manier des mots, lui, il a été conçu pour être multimodal dès le départ.
Autrement dit, il sait jongler entre texte, son et image sans perdre le fil. Hassabis lui-même l’a déclaré : « Nous avons toujours construit Gemini, notre modèle fondateur, pour qu’il soit multimodal dès le départ »
« Et la raison pour laquelle nous l’avons fait [est que] nous avons une vision de cette idée d’un assistant numérique universel, un assistant qui […] vous aide réellement dans le monde réel. » ajoute-t-til.
Mais il faut croire que Google veut aller encore plus loin en combinant Veo, sa technologie de génération de vidéos et Gemini.
Le géant ne veut donc plus d’un simple chatbot qui vous trouve une recette de gâteau au chocolat. Il compte nous offrir un véritable allié capable de voir le gâteau, de comprendre pourquoi il est en train de brûler dans le four. Et peut-être même de générer une vidéo expliquant comment éviter cela la prochaine fois.
Et si cette idée fait un peu sourire, elle s’inscrit dans une tendance de fond qui secoue tout le secteur. Celle des IA dites « omni-universelles », capables de traiter n’importe quel média.
OpenAI l’a compris, Meta y travaille, Amazon y met les bouchées doubles… mais Google, lui, aura un avantage de taille pour nourrir son IA : YouTube.
Qu’est-ce que Youtube vient faire là-dedans ?
Au fait, pour apprendre à un modèle d’IA à reconnaître la gravité, la vitesse ou les lois du mouvement, il n’y a rien de mieux que de lui faire regarder des vidéos… Et justement, Google n’aura pas à aller loin puisqu’il a YouTube.
Des millions de vidéos, des tutos, des vlogs, des chutes en skate, des chats qui sautent – tout y passe. D’après Hassabis, Veo, la brique vidéo de ce futur assistant digital, se gave littéralement de ces contenus pour capter les dynamiques du monde réel.
Évidemment, tout cela ne va pas sans quelques remous. Car même si Google affirme respecter les conditions d’utilisation en s’appuyant uniquement sur certains contenus, on sait aussi que l’entreprise a récemment étendu ses règles pour exploiter davantage de données.
Ce qui risque de faire tousser quelques créateurs, pas forcément ravis de voir leurs vidéos devenir de la matière première pour des modèles d’IA.
Quoi qu’il en soit, pour les professionnels, startups et créateurs de contenu, cette fusion est une très bonne nouvelle. Imaginez une IA capable de produire des vidéos de démonstration pour un produit, d’analyser les réactions des internautes, de prédire les tendances à venir, et tout ça… en un clin d’œil.
Moins de budget, plus de puissance, et un assistant qui comprend autant le fond que la forme. Plutôt pratique non ?
Qu’est-ce que vous en dites ?
- Partager l'article :