Meta lance V-JEPA : L’IA qui s’améliore… en regardant des vidéos !

V-JEPA est ce grand modèle de langage capable d'apprendre et de s'améliorer en regardant des vidéos. Pour , c'est un grand pas vers l'IA générale.

Meta annonce une percée majeure en matière d'apprentissage et d'entraînement des grands modèles de langage (LLM). Celle-ci consiste en un LLM capable de s'améliorer en s'entraînant à l'aide de vidéos. V-JEPA progresse d'une manière similaire à la façon dont les humains comprennent le monde. C'est une avancée cruciale vers l'intelligence artificielle générale.

L'acronyme V-JEPA vient de Video Joint Embedding Predictive Architecture. Bien entendu, ce modèle fonctionne différemment des LLM. Il utilise des images plutôt que des mots. De plus, ce n'est pas un modèle génératif. Cela signifie qu'il n'utilise pas l'image intégrale en une seule fois.

Rappelons qu'un modèle génératif tenterait de comparer chaque pixel d'une image à chaque pixel. V-JEPA, quant à lui, s'appuie sur des concepts abstraits, tels que les arbres, les animaux, les personnes et les objets. Ce LLM révolutionnaire de Meta analyse également la relation de tous ces éléments les uns avec les autres pour apprendre.

Ils veulent des machines qui apprennent comme les humains

Pour les chercheurs de Meta, V-JEPA constitue une avancée significative sur le renforcement de la cognition artificielle. Le but est d'arriver à ce que les machines puissent réaliser un raisonnement et une planification plus généralisés.

Précisons que le vice-président de Meta, Yann LeCun, se trouve à la tête de ce projet. Ce haut responsable est également le scientifique en chef de la branche de recherche en IA de la compagnie. Il explique ainsi que lui et son équipe veulent « construire une intelligence machine avancée qui peut apprendre davantage comme le font les humains ».

Une méthode d'entraînement six fois plus efficace

V-JEPA n'a pas besoin d'ingérer et d'analyser un par un tous les pixels pour chaque image d'une vidéo. Cette manière de procéder améliore l'efficacité de l'entraînement par un facteur de 1,5 à six fois.

D'autre part, le modèle révolution de Meta peut s'entraîner entièrement avec des données non étiquetées. Rappelons que les étiquettes ne sont indispensables que pour préparer le modèle à une tâche particulière après le pré-entraînement. La préparation se fait avec des vidéos avant que les objets et les sujets dans les données ne soient étiquetés lors de la curation.

Aujourd'hui des vidéos, mais bientôt, tout un environnement

Pendant l'entraînement de V-JEPA, les chercheurs ont masqué des parties importantes d'une vidéo. Le modèle devait alors prédire ou supposer ce que contenaient ces parties masquées. Cette méthode lui a permis de comprendre comment les objets interagissent.

V-JEPA sait parfaitement distinguer les interactions fines entre objets sur de courtes périodes. Le modèle arrive notamment à faire la différence entre quelqu'un qui ramasse un stylo pour le poser ou une personne faisant semblant de le poser. Meta veut désormais renforcer la durée des prédictions de V-JEPA.

D'autre part, le modèle V-JEPA ne traite, pour l'heure, que des vidéos. Les chercheurs envisagent d'ajouter la compréhension de l'audio pour améliorer ses capacités et ouvrir des opportunités pour l'intelligence artificielle incarnée.

Pour aider à améliorer son LLM révolutionnaire, Meta le rend accessible sous une licence Creative Commons. V-JEPA est disponible sur la plateforme GitHub.

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *