Quatorze mois après avoir quitté OpenAI, Mira Murati sort enfin du silence avec le premier vrai projet de sa société Thinking Machines : TML-Interaction-Small.
Et surprise ! Ce n’est pas un nouveau clone de GPT. C’est une IA pensée pour parler, écouter et réagir simultanément, presque comme un humain en pleine conversation.
Aujourd’hui, discuter avec un assistant vocal ressemble encore souvent à un échange de mails un peu gênant. On parle, on attend qu’il termine, puis on reprend la parole après un petit silence devenu presque normal.
Avec TML-Interaction-Small, Thinking Machines veut casser cette habitude. Pendant qu’il parle, il continue d’écouter, d’analyser ce qu’il voit et d’ajuster sa réponse en direct.
Cela peut ressembler à un débat familial animé pendant le dîner. Mais c’est aussi exactement comme fonctionnent les conversations humaines.
People talk, listen, watch, think, and collaborate at the same time, in real time. We've designed an AI that works with people the same way.
— Thinking Machines (@thinkymachines) May 11, 2026
We share our approach, early results, and a quick look at our model in action.https://t.co/AFJZ5kH7Ku pic.twitter.com/uxl1InS6Ay
Comment est-ce possible ?
L’entreprise utilise le terme “full-duplex”. Une situation où deux interlocuteurs parlent en même temps. Du genre, lors d’un vrai appel téléphonique.
Pour y parvenir, Thinking Machines utilise en réalité deux modèles différents qui travaillent ensemble. Le premier gère l’interaction en temps réel : la voix, les interruptions, le rythme de la discussion ou encore les réactions immédiates.
Le second, beaucoup plus lourd, reste en arrière-plan pour effectuer les tâches complexes. C’est lui qui s’occupe du raisonnement avancé, des recherches web ou des appels d’outils externes avant de transmettre les résultats à la conversation principale.
Hormis cela, le système découpe les échanges en micro-tours de 200 millisecondes. Résultat : l’IA peut continuer à écouter même lorsqu’elle est en train de répondre, au lieu de se figer comme un assistant vocal qui aurait perdu le fil de la discussion.
Un peu comme quelqu’un qui tient une conversation tout en fouillant dans ses notes, sauf sans les fameux “euh deux petites secondes
L’IA de Thinking Machines face aux concurrents
TML-Interaction-Small cartonne sur les benchmarks spécialisés dans la fluidité des conversations. Sur FD-bench v1.5, un test conçu pour mesurer la qualité des interactions vocales, par exemple, le modèle atteint 77,8 points.
À côté, GPT-realtime-2.0 en mode minimal affiche seulement 46,8 points. La latence descend également à 0,40 seconde, contre 0,57 pour Google Gemini 3.1 Flash Live et 1,18 seconde pour GPT-realtime-2.0 minimal.
Sachant qu’une conversation humaine fluide tourne autour de 200 à 250 millisecondes entre deux prises de parole. L’écart commence donc réellement à se réduire.
Outre les benchmarks, selon Thinking Machines, l’architecture de TML-Interaction-Small répond à une limite assez connue des grands modèles de langage actuels. Voyez-vous, les IA classiques n’ont pas réellement conscience du temps qui passe.
Elles savent rarement gérer correctement les horaires ou les intervalles sans indication précise. Dans certains tests personnels relayés par plusieurs observateurs, Gemini se tromperait encore régulièrement sur des notions temporelles simples.
Ce qui n’est pas le cas de TML-Interaction-Small. Selon VentureBeat, ce modèle peut comprendre une instruction du genre: “Rappelle-moi de vérifier la température toutes les quatre minutes”.
Pour des usages industriels, médicaux ou scientifiques, ce genre de détail est essentiel.
- Partager l'article :
