Un robot IA avec cerveau visible devant un homme pensif, dans un laboratoire

Meta TRIBE v2 : la première IA qui simule les réactions du cerveau humain

Mariano R. 2 avril 2026 5 minutes de lecture Intelligence artificielle

Avec TRIBE v2, Meta veut rapprocher l’intelligence artificielle du fonctionnement cognitif réel. Ce modèle open source peut simuler le cerveau humain sans passer par un scanner.

Meta a présenté le 26 mars 2026 un modèle qui peut prédire l’activité cérébrale humaine face à une image, un son ou un texte. Baptisé TRIBE v2, ce système open source tente de reproduire ce que le cerveau ferait en le percevant. Cette promesse repositionne l’intelligence artificielle comme un outil d’exploration cognitive, et non plus seulement comme un moteur de génération.

TRIBE v2, un cerveau virtuel entraîné à grande échelle

Ainsi, l’idée au cœur du TRIBE v2 est de remplacer le scanner cérébral par un modèle prédictif. L’IA reçoit alors un stimulus (une vidéo, un extrait sonore ou un texte) et génère une simulation de l’activité cérébrale correspondante. Telle qu’elle serait observée via une IRM fonctionnelle.

Pour atteindre ce niveau de précision sur TRIBE v2, Meta a constitué un jeu de données avec plus de 500 heures d’enregistrements fMRI issues de plus de 700 participants. Chaque session associe un contenu précis à une réponse cérébrale mesurée en temps réel.

TRIBE v2 ne prédit pas des neurones individuels, mais l’activité de près de 70 000 voxels. Ces unités tridimensionnelles traduisent les variations de flux sanguin dans le cerveau. Même si ce signal reste indirect et imparfait, il permet de cartographier finement les zones activées lors de la perception.

Today we’re introducing TRIBE v2 (Trimodal Brain Encoder), a foundation model trained to predict how the human brain responds to almost any sight or sound.

Building on our Algonauts 2025 award-winning architecture, TRIBE v2 draws on 500+ hours of fMRI recordings from 700+ people… [pic.twitter.com/vRoVj8gP4j](http://pic.twitter.com/vRoVj8gP4j)
— AI at Meta (@AIatMeta) March 26, 2026

Une architecture qui fusionne vision, audio et langage

TRIBE v1 reposait sur un échantillon réduit. TRIBE v2, lui, introduit une base suffisamment large pour capter des régularités générales du fonctionnement cérébral. Ce nouveau modèle s’appuie sur une architecture en trois étapes, typique des modèles multimodaux récents. Il ne traite pas directement les données brutes.

D’abord, chaque type de contenu est analysé par un encodeur spécialisé. Les images passent par des modèles de vision comme V-JEPA. Les sons par des architectures inspirées de Wav2Vec2-BERT. Et les textes par des modèles de langage issus de la famille Llama 3.x. Ces modules transforment les données en représentations numériques. On les appelle les embeddings, qui condensent l’essentiel de l’information perçue.

Ensuite, un module de type Transformer aligne ces signaux dans le temps. Cette étape est importante, car la réponse cérébrale ne survient pas instantanément. Il existe un décalage entre la perception et l’activation mesurée. Enfin, une couche de projection traduit cette représentation unifiée en activité cérébrale simulée. TRIBE v2 produit alors une carte prédictive des activations sur des dizaines de milliers de voxels.

Ce pipeline reflète la convergence des modalités. Mais ici, Meta pousse plus loin, avec l’objectif de reproduire la perception humaine elle-même, mais non pas le contenu.

Une avancée validée par des performances et une généralisation inédites

La nouvelle version de TRIBE ne se distingue pas seulement par sa taille, mais aussi par ses performances. Selon les résultats publiés par Meta, le modèle atteint une précision multipliée par deux à trois par rapport aux approches précédentes.

De plus, TRIBE v2 fonctionne en zero-shot. Il peut prédire l’activité cérébrale de nouveaux individus sans recalibrage préalable. Cette capacité de généralisation est rare dans ce domaine. Puisque les modèles doivent généralement être ajustés pour chaque sujet.

Je me souviens que TRIBE v1 avait déjà remporté l’Algonauts 2025 brain encoding challenge. Il s’agit d’une compétition internationale qui vise à prédire l’activité cérébrale à partir de vidéos. Mais la nouvelle version change d’échelle, tant en volume de données qu’en robustesse. Ainsi, l’IA commence à capturer des principes généraux du traitement cognitif. Au lieu de juste coller à des données expérimentales.

Par ailleurs, Meta met en avant deux applications principales. A commencer par la recherche en neurosciences. TRIBE v2 agit comme un simulateur. Les chercheurs peuvent tester des hypothèses sans mobiliser immédiatement un scanner IRM, une ressource coûteuse et limitée. Le modèle permet ainsi de filtrer les expériences les plus pertinentes et d’optimiser les protocoles.

TRIBE v2 ouvre aussi une nouvelle voie pour évaluer les modèles d’intelligence artificielle eux-mêmes. En comparant les activations d’un modèle à celles du cerveau humain pour un même stimulus, c’est possible de mesurer leur proximité fonctionnelle.

Donc, on peut maintenant juger une IA sur la manière dont elle traite l’information. Si ses patterns d’activation se rapprochent de ceux du cortex humain, cela suggère une meilleure capacité de généralisation ou de robustesse. Alors, l’IA est aussi optimisée pour s’aligner sur des mécanismes cognitifs humains.

Une étape vers une IA plus humaine avec TRIBE v2

TRIBE v2 arrive à la croisée de plusieurs tendances. Notamment, l’explosion des modèles multimodaux, la disponibilité de données neuroscientifiques et la montée en puissance des architectures Transformer.

Mais surtout, il marque une transition vers ce que l’on pourrait appeler une IA neuro-compatible. Jusqu’ici, les systèmes d’IA étaient évalués selon des critères externes. Désormais, ils peuvent être comparés directement au fonctionnement du cerveau.

Je pense que cela ouvre des perspectives concrètes. Dans la santé, par exemple, les modèles comme TRIBE v2 pourraient aider à détecter des anomalies cognitives. Ou encore à mieux comprendre certaines pathologies. Dans les interfaces homme-machine, ils pourraient permettre de concevoir des systèmes plus intuitifs. Ceux qui seront adaptés à notre manière de percevoir et de traiter l’information.

Toutefois, n’oublions pas les limites. Simuler l’activité cérébrale ne signifie pas comprendre la conscience ou les processus mentaux dans leur globalité. TRIBE v2 repose sur des corrélations, pas sur une reproduction fidèle du fonctionnement neuronal.

Avec TRIBE v2, Meta pose une brique importante vers une IA qui se rapproche du fonctionnement humain. Mais malgré tout, certains pourraient utiliser la capacité à prédire les réactions cérébrales pour optimiser des contenus en fonction de leur impact cognitif. Que ce soit publicitaire, médiatique ou politique… Cette perspective interroge les questions d’éthique et de régulation.

A mon avis, l’ouverture en open source du modèle accélérera aussi son adoption et sa diversification. Laboratoires, startups et industriels pourront s’en emparer pour explorer de nouveaux usages, parfois imprévus.

La prochaine étape sera de passer de la simulation à l’interaction. Car les modèles comme TRIBE v2 pourraient commencer à intégrer des boucles de feedback en temps réel.