GPT-5.5 et Mythos se retrouvent au coude-à-coude sur des tests de cyberattaque fait par l’AI Security Institute. Et les résultats commencent à faire réfléchir.
C’est le problème actuel avec Mythos. Cette IA est d’une puissance impressionnante, au point que son créateur Anthropic, lui-même, appelle à la prudence. Son déploiement suscite déjà des tensions, notamment du côté de la Maison-Blanche qui redoute un usage incontrôlé.
Mais selon les tests de l’AI Security Institute, le tout nouveau modèle d’OpenAI s’invite dans l’équation. Et les résultats sont sans appel. Sur des scénarios de cyberattaque complexes, GPT-5.5 affiche des performances très proches de Mythos, au point de rivaliser avec lui sur des tâches de niveau expert.
GPT-5.5 rivalise désormais avec Mythos
Selon l’AI Security Institute, GPT-5.5 affiche des performances impressionnantes sur des benchmarks spécialisés. Sur CyberBench et la simulation britannique TLO en 32 étapes, le modèle atteint 71,4 % de réussite sur des tâches de niveau expert. Un score qui le place immédiatement parmi les modèles les plus redoutables du moment.
Face à GPT-5.5, Mythos n’est pas loin. Il affiche 68,6 % de réussite sur les mêmes tests. L’écart est mince, mais le signal est fort. Encore plus marquant, GPT-5.5 a réussi à compléter entièrement la simulation TLO dans 2 cas sur 10.
Mythos, lui, y est parvenu 3 fois. Cela signifie que ces IA ne se contentent plus d’assister. Elles exécutent des chaînes d’attaque complètes. Et c’est là que les inquiétudes commencent.
Car réussir une telle simulation implique de maintenir une cohérence sur toute la chaîne d’attaque. Une erreur à une étape peut tout faire échouer. Le fait que ces modèles y parviennent, même partiellement, montre qu’ils dépassent désormais le rôle d’assistant technique.
Des capacités de hacking qui en disent long
Quand GPT-5.5 et Mythos sont comparés, ce n’est plus une question de performance brute. C’est une question de capacité opérationnelle. Parce que la simulation TLO n’a rien d’anodin. Elle reproduit une cyberattaque complexe, en plusieurs étapes. Reconnaissance, exploitation, élévation de privilèges, mouvements latéraux, tout y passe.
Sur le graphique fourni par l’AI Security Institute, une tendance se dessine clairement. À mesure que les tokens augmentent, les modèles progressent dans les étapes critiques. Et GPT-5.5 suit une trajectoire très proche de Mythos.
Les deux systèmes atteignent des niveaux avancés. Jusqu’à des phases comme l’exploitation web ou l’analyse cryptographique. Des domaines normalement réservés à des experts humains. Ce n’est donc plus de l’assistance. C’est de l’exécution guidée.
Dans le détail, GPT-5.5 se distingue par sa régularité. Il progresse de façon stable sur l’ensemble des étapes. Mythos, lui, montre parfois des bonds plus rapides, mais moins constants. Ainsi, GPT-5.5 devient le deuxième modèle capable de compléter cette simulation de bout en bout. Un seuil symbolique vient d’être franchi.
- Partager l'article :