Chez certains géants de la tech, l’IA a dépassé l’âge de pierre, d’imiter nos mots ou de juste recopier nos images. Meta, lui, vient de proposer cinq projets qui rapprochent l’IA du cerveau humain en boostant les sens, la logique et même la sociabilité des machines
Meta, via son équipe FAIR (Facebook AI Research), pousse sérieusement les limites pour rendre ses IA plus humaines. Ils veulent donner aux machines des sens, de l’intuition, une capacité à comprendre l’espace et même à collaborer avec nous. Le tout à travers cinq projets ambitieux sur l’IA, chacun cible un aspect fondamental du cerveau humain.
Meta veut rendre son IA encore plus pareille au cerveau humaine
Ainsi, l’équipe FAIR de Meta a révélé cinq grandes avancées qui pourraient rapprocher l’IA de notre cerveau.
Le premier bijou s’appelle Perception Encoder, une sorte de super-rétine numérique. Il permet aux IA de mieux comprendre ce qu’elles voient, comme les images, les vidéos et les détails minuscules. Par exemple repérer une raie camouflée dans le sable ou un petit oiseau planqué en arrière-plan.
Et ce n’est pas tout ! Branché à un modèle de langage costaud, il devient une vraie machine à comprendre le monde. Il gère les Q&A visuels, la lecture de documents illustrés, et capte des informations complexes comme les mouvements de caméra ou les objets cachés.
🚀 Meta FAIR is releasing several new research artifacts on our road to advanced machine intelligence (AMI). These latest advancements are transforming our understanding of perception.
— AI at Meta (@AIatMeta) April 17, 2025
1️⃣ Meta Perception Encoder: A large-scale vision encoder that excels across several image &… pic.twitter.com/cAf79LkBvn
Ensuite, Meta nous présente le Perceptual Language Model (PLM). C’est un modèle qui sait associer ce qu’il voit à ce qu’il lit ou entend. Il a été nourri avec des tonnes de données synthétiques et un tout nouveau dataset vidéo géant (2,5 millions d’exemples bien étiquetés). De quoi le rendre super doué pour comprendre les scènes complexes dans les séquences.
Cerise sur le gâteau ! Tout est open source, avec plusieurs tailles de modèles, de 1, 3 et 8 milliards de paramètres, ainsi qu’un benchmark maison, PLM-VideoBench, pour tester les compétences visuelles fines.
Un cerveau qui comprend et qui ne bug pas sur les fautes
Troisième nouveauté, Meta Locate 3D. Par exemple, vous dites à un robot « trouve le vase près de la télé ». Grâce à ce modèle, il va scanner son environnement en 3D, interpréter votre demande et identifier le bon objet, même s’il y en a plusieurs du même type.
Le système repose sur trois couches dont un traitement 3D des objets, un encodeur de scène et un décodeur qui relie texte et image. Et pour entraîner tout ça, Meta a compilé un nouveau jeu de données bien costaud de 130 000 annotations sur plus de 1 300 scènes.
Meta a aussi travaillé sur la robustesse des IA linguistiques avec un modèle qui bosse au niveau des octets, pas des mots. Ce Dynamic Byte Latent Transformer est moins sensible aux fautes, aux mots bizarres ou inventés. Ainsi, il est plus stable, plus rapide et plus fiable dans ses réponses. Meta a donc lâché les poids du modèle pour que les chercheurs puissent l’explorer à leur tour.
L’IA de Meta devient un coéquipier
Dernier point, mais pas des moindres, c’est le Collaborative Reasoner. L’IA est ici capable de coopérer avec des humains ou même avec d’autres IA. Par exemple, deux bots peuvent discuter pour résoudre un problème ensemble, se corrigent, se conseillent et finissent par trouver la meilleure solution possible.
Meta a même créé un moteur de simulation, Matrix, pour générer des dialogues d’entraînement à grande échelle. Le résultat est de jusqu’à 29 % de meilleures performances sur les tâches de raisonnement en duo.
Je trouve donc que Meta posent brique après brique les fondations d’une IA qui perçoit, comprend et interagit presque comme un humain. On n’y est pas encore, mais moi, je sens qu’on s’en rapproche à toute vitesse. Et vous ? Qu’en pensez-vous ?
- Partager l'article :