Meta dévoile une technique révolutionnaire pour faire réfléchir les IA

Dina R. Publié le 18 octobre 2024 Mis à jour le 19 mai 2026 3 minutes de lecture Intelligence artificielle

Grâce à TPO, un modèle d’IA peut désormais « réfléchir » particulièrement à une réponse avant de répondre. Cette nouvelle technique a été mise au point par les chercheurs de Meta.

Meta a officiellement dévoilé une nouvelle technique d’entraînement de l’IA. Elle affirme que cette méthode pourrait changer considérablement la manière dont les machines pourront traiter les informations et répondre aux requêtes. Découvrez tous les détails sur cette nouvelle méthode dans cet article !

En quoi consiste la méthode TOP ?

La méthode TOP ou « Thought Preference Optimization » fait référence à une technique qui apprend aux modèles linguistiques à réaliser une sorte de délibération interne avant de donner des réponses. Plus précisément, c’est une technique qui permet aux modèles de réfléchir en quelque sorte.

Prenons le cas d’un humain, lorsque nous souhaitons réfléchir, nous devons faire une pause. Le fonctionnement du TPO est donc le même. C’est comme une sorte de bouton de pause mentale pour une IA.

Grâce à ce bouton, elle pourra réfléchir aux questions au lieu de répondre par la première chose qui lui vient à l’esprit.

De cette manière, les modèles linguistiques pourront proposer des réponses à la fois précises et nuancées. Ils pourront donner des réponses plus humaines et réfléchies et non une réponse qui ressemble à celle d’un robot.

Enfin, des modèles d’IA qui pourront résoudre des problèmes complexes

La technique TPO pourrait aider Meta à se rapprocher d’une offre l’alternative open source aux modèles propriétaires comme Strawberry de la société d’IA OpenAI (alias o1). Cette IA d’OpenAI est célèbre pour ses capacités de résolution de problèmes complexes.

D’ailleurs, Meta a choisi une approche qui se distingue des autres techniques traditionnelles à l’image de la « chaîne de pensée ». Cette dernière contraint l’IA à exposer son travail à travers plusieurs itérations.

Le processus de formation de TPO diverge aussi du simple fait, qui est de demander au modèle de « réfléchir étape par étape ». Effectivement, il part toujours d’un modèle de base qui suit les instructions. C’est ensuite que les chercheurs l’encouragent à créer des pensées internes avant de répondre.

"Reflection API" is a sonnet 3.5 wrapper with prompt. And they are currently disguising it by filtering out the string 'claude'.https://t.co/c4Oj8Y3Ol1 https://t.co/k0ECeo9a4i pic.twitter.com/jTm2Q85Q7b
— Joseph (@RealJosephus) September 8, 2024

L’apprentissage par renforcement itératif permet ainsi à l’IA de perfectionner ses capacités de réflexion guidée par un modèle de jugement. Ce dernier a pour objectif d’évaluer le résultat final ou ce que l’utilisateur voit.

C’est grâce à cette approche non interventionniste que l’IA peut créer ses propres modèles de pensée. Cela lui permet ainsi de résoudre des problèmes plus adaptables et plus créatifs. Cette technique est ainsi un pas en avant vers une IA qui ne fait pas que suivre des règles, mais au contraire comprend parfaitement le raisonnement qui les sous-tend.

Qu’en pensez-vous ? Est-ce qu’une IA peut réellement réfléchir ? Peut-elle réellement penser comme un humain ? Est-ce que cette technique de Meta pourrait l’aider à développer une IA qui peut rivaliser à Strawberry d’OpenAI ? Vous pouvez répondre dans les commentaires.