GPT 5.6

OpenAI lance officiellement GPT-5.6 : meilleur que Mythos 5 ? 

Vendredi soir, le 26 juin, OpenAI a officiellement dévoilé GPT 5.6. Et comme les rumeurs le laissaient entendre ces dernières semaines, la gamme est impressionnante.

Au fait, la famille GPT 5.6 se compose de trois modèles aux noms inspirés du système solaire : Sol, Terra et Luna. Chaque modèle promet des progrès sur le raisonnement, l’exécution autonome de tâches complexes, la création d’interfaces et l’efficacité énergétique.

OpenAI introduit également un mode « Ultra ». Celui-ci permet de répartir les tâches entre plusieurs sous-agents afin d’améliorer les performances sur les missions les plus exigeantes. 

Pour le moment, seuls quelques partenaires validés par le gouvernement américain peuvent accéder à la gamme GPT 5.6

Que promettent les GPT-5.6 ?

Eh bien, GPT-5.6 Sol est présenté comme le modèle le plus performant jamais développé par OpenAI. L’entreprise met en avant des progrès sur les tâches agentiques. Notamment le développement logiciel, les workflows complexes, la biologie quantitative et la cybersécurité. 

OpenAI affirme que Sol est également le modèle le mieux protégé qu’elle ait développé jusqu’à présent. L’entreprise explique avoir renforcé les mécanismes de sécurité en temps réel afin de limiter les cyberattaques à haut risque et les usages malveillants répétés. 

Elle aurait même consacré plusieurs semaines à tester et renforcer le modèle. Comment ? Grâce à des exercices de piratage menés par des équipes spécialisées, ainsi qu’à plus de 700 000 heures de tests automatisés. Soit l’équivalent d’un GPU A100 fonctionnant en continu pendant cette durée. 

Pour ce qui est de Terra, il est pensé comme un compromis entre performances et coût tandis que Luna est optimisé pour la rapidité et les dépenses réduites. 

Que disent les benchmarks ?

Résultat GPT 5.6 sur TerminalBench 2.1 / OpenAI

Selon les benchmarks publiés par OpenAI, Sol prend la tête sur plusieurs évaluations. Sur TerminalBench 2.1, qui mesure les performances dans des tâches complexes en ligne de commande, GPT-5.6 Sol atteint 88,8 %

Sol Ultra, quant à lui, grimpe à 91,9 %. Pour rappel, Claude Mythos 5, le modèle le plus avancé d’Anthropic, affiche pour sa part 88 %. Sur le même benchmark, Terra obtient 84,3 %, contre 83,4 % pour GPT-5.5, tandis que Luna atteint 82,5 %. 

Les améliorations ne concernent pas uniquement la programmation. Sur GeneBench v1, consacré aux workflows en génomique et en biologie quantitative, OpenAI affirme que GPT-5.6 Sol dépasse GPT-5.5.

Et pourtant, il consomme moins de tokens. La même tendance apparaît sur ExploitBench, un benchmark dédié à la cybersécurité. Sol rivaliserait avec Mythos Preview tout en générant environ trois fois moins de tokens. 

Résultat GPT 5.6 sur ExploitBench / OpenAI

De son côté, GPT-5.6 Terra offre un niveau de performances proche de GPT-5.5 tout en divisant son coût par deux.

Sur GeneBench v1, GPT-5.6 Luna atteint un score d’environ 14 à 15 % pour un coût inférieur à un dollar via l’API. Pour info, GPT-5.5 se situe autour de 23 % pour près de 1,2 dollar. 

Terra, lui, grimpe à environ 28 % pour un coût proche de 1,7 dollar. Et Sol atteint environ 31 % pour un coût d’environ 1,9 dollar. 

Restez à la pointe de l'information avec LEBIGDATA.FR !

▶ Abonnez-vous à notre chaîne YouTube et Ajoutez-nous à vos favoris sur Google Actualités
Cliquez pour commenter

Newsletter

La newsletter IA du futur

Rejoins nos 100 000 passionnés et experts et reçois en avant-première les dernières tendances de l’intelligence artificielle🔥