Claude Sonnet 4.6 ne se contente pas d’être une mise à jour incrémentale. Avec une fenêtre de contexte pouvant atteindre un million de tokens et des progrès marqués en coding, planification et usage d’ordinateur, Anthropic veut transformer son modèle “milieu de gamme” en véritable moteur de projet. L’ambition est claire : traiter un dossier entier d’un seul tenant, sans découpage artificiel, et rapprocher l’IA du rôle de collègue numérique plutôt que simple chatbot.
Il y a des mises à jour qui sentent la peinture fraîche. Et puis il y a celles qui ressemblent à un changement de gabarit, comme si l’atelier venait de s’acheter une nouvelle machine-outil. Avec Claude Sonnet 4.6, Anthropic promet exactement ça : un modèle “milieu de gamme” qui s’autorise des ambitions de tête d’affiche, sans demander un supplément au vestiaire.
Le pitch est simple à comprendre, difficile à ignorer : Sonnet 4.6 devient le modèle par défaut pour les utilisateurs Free et Pro sur claude.ai et Claude Cowork, tout en gardant le même point d’entrée tarifaire que Sonnet 4.5 (à partir de 3 $ par million de tokens en entrée et 15 $ en sortie côté API).
Mais l’argument qui change la texture des usages, c’est ailleurs qu’il se cache. Anthropic met sur la table une fenêtre de contexte d’un million de tokens (en bêta), pensée pour avaler des “gros morceaux” : une base de code entière, un contrat interminable, des piles de documents qui, d’habitude, forcent à découper, résumer, recoller, prier. Avec 4.6, l’idée devient : “pose tout sur la table, et on bosse”.
Un Sonnet qui réduit l’écart avec Opus
Dans la hiérarchie maison, Sonnet est censé être l’option robuste, rapide, rentable, pendant qu’Opus joue les chirurgiens du raisonnement profond. Sauf que Sonnet 4.6 est présenté comme un modèle qui“approche l’intelligence niveau Opus” à un coût plus pratique pour beaucoup plus de tâches.
Anthropic insiste particulièrement sur le coding. Et pas juste le “génère-moi un snippet”, mais le vrai travail qui fait transpirer : comprendre le contexte avant de modifier, éviter les duplications inutiles, tenir un fil logique sur une longue session, corriger sans casser le reste.
Dans Claude Code, les premiers tests internes indiquent que les utilisateurs ont préféré Sonnet 4.6 à Sonnet 4.5 environ 70 % du temps. Plus surprenant, ils l’ont même préféré à Opus 4.5 dans 59 % des comparaisons, notamment grâce à un meilleur suivi des consignes et moins d’hallucinations.
C’est un signal important, parce qu’il raconte un truc très concret : la “valeur” d’un modèle ne se résume pas à un score de benchmark. Elle se joue aussi au quotidien, dans la sensation qu’il comprend ce que vous voulez sans se lancer dans un roman parallèle, et dans sa capacité à revenir sur ses pas proprement quand une piste est mauvaise.
Un million de tokens : l’effet “dossier complet”
La fenêtre de contexte 1M tokens est l’aimant à regards. Anthropic la présente comme suffisante pour contenir, dans une seule requête, des codebases entières, des contrats longs ou des dizaines de papiers de recherche.
Petit détail qui compte pour éviter les malentendus : d’après la page produit, ce contexte 1M est “en bêta” et disponible “sur l’API uniquement” pour le moment.
Autrement dit, c’est surtout un atout pour les développeurs, les outils internes, les workflows agentiques branchés à la Claude Developer Platform, plutôt qu’une capacité garantie partout et tout le temps dans l’interface grand public.
Mais même limité à l’API, le changement de régime est réel. Jusqu’ici, “traiter un projet en une seule fois” ressemblait souvent à une promesse marketing. En pratique, beaucoup de gens finissaient par segmenter : d’abord l’analyse, puis un résumé, puis un plan, puis l’exécution.
Avec un très grand contexte, une autre stratégie devient possible : conserver l’intégralité de la matière première, et demander au modèle de raisonner à l’intérieur, plutôt que de raisonner sur une version réduite.
Anthropic va même chercher un exemple parlant côté “planification au long cours” avec une évaluation de gestion d’entreprise simulée (Vending-Bench Arena), où Sonnet 4.6 adopte une stratégie : investir agressivement au début, puis pivoter au bon moment vers la rentabilité. L’objectif n’est pas de dire “il sait faire de la finance”, mais de montrer qu’il tient une trajectoire et qu’il sait changer de cap sans oublier pourquoi il est parti.
L’IA qui clique : le “computer use” devient plus crédible
Deuxième axe majeur : l’usage d’ordinateur, au sens littéral. Pas un modèle qui appelle seulement des API, mais un modèle qui peut naviguer dans des interfaces, remplir des formulaires, manipuler des onglets, exploiter une feuille de calcul, puis recoller les morceaux.
Anthropic cite des résultats “niveau humain” sur des tâches comme naviguer dans un tableur complexe ou compléter un formulaire web multi-étapes, avant de coordonner l’ensemble à travers plusieurs onglets.
Pour objectiver ces progrès, l’entreprise s’appuie sur OSWorld, un benchmark orienté “agents sur de vrais logiciels”, et précise qu’à partir de Sonnet 4.5, les scores utilisent OSWorld-Verified, une version améliorée du benchmark (mise à jour de la qualité des tâches, du grading et de l’infrastructure).
Ce sujet est plus qu’un gadget technique, parce que la majorité des entreprises n’ont pas des outils “AI-native”. Elles ont des interfaces, des workflows, des boutons, des vieux formulaires, des tableurs qui traînent depuis des années.
Une IA capable d’opérer dans ce monde-là, sans demander une refonte complète des systèmes, change la zone de déploiement possible.
Anthropic reste prudent : Sonnet 4.6 “accuse encore un retard sur les humains les plus compétents” dans l’usage de l’ordinateur. Mais la trajectoire est claire, et la société insiste sur le rythme des progrès.
Prompt injection : quand l’interface devient un champ de mines
Plus une IA est capable d’agir, plus elle devient attaquable. L’un des risques phares, c’est la prompt injection : des instructions malicieuses cachées dans une page web, un email, un document, qui tentent de détourner l’agent de sa mission.
Sur ce point, Anthropic affirme que Sonnet 4.6 progresse fortement : ses évaluations de sécurité indiquent une “amélioration majeure” par rapport à Sonnet 4.5, avec des performances similaires à Opus 4.6 dans ces tests.
La system card va plus loin et décrit ce travail comme une montée en robustesse dans des scénarios agentiques. Elle mentionne notamment des évaluations de prompt injection et des tests externes (red teaming), avec l’idée que Sonnet 4.6 se comporte nettement mieux que Sonnet 4.5 face à ce type de détournement.
Traduction : si vous confiez à un modèle la capacité d’aller “sur le web” et d’agir, la sécurité n’est plus un add-on sympathique. C’est une condition de base pour que l’automatisation reste un gain de productivité, et pas une roulette russe en costume-cravate.
Côté plateforme : des briques pour tenir dans la durée
Sonnet 4.6 n’arrive pas seul. Anthropic met en avant des évolutions de la Claude Developer Platform autour de la “pensée” (adaptive thinking, extended thinking) et de la gestion du contexte dans le temps, avec la compaction (en bêta) qui résume automatiquement les parties anciennes d’une conversation quand on approche des limites.
Dans les docs “What’s new in Claude 4.6”, Anthropic indique aussi que plusieurs outils passent en disponibilité générale, notamment web fetch, l’appel d’outils programmatique, un outil de recherche d’outils, des exemples d’usage d’outils, et un “memory tool”. Le code execution est également mis en avant, avec une gratuité lorsqu’il est utilisé avec les outils web search ou web fetch, selon les conditions décrites dans la documentation.
Ce sont des détails qui pèsent lourd dès qu’on sort du simple chat : tenir des workflows longs, éviter de recharger sans cesse le contexte, outiller proprement un agent, réduire le bruit dans les résultats, garder un modèle “au travail” plus longtemps sans qu’il perde le fil.
Disponibilité : du chat grand public aux clouds
Anthropic indique que tout le monde peut chatter avec Sonnet 4.6 sur Claude.ai (web, iOS, Android), et que le modèle est disponible pour les développeurs sur la Claude Developer Platform, mais aussi via des plateformes cloud majeures, dont Amazon Bedrock, Vertex AI de Google Cloud et Microsoft Foundry.
Côté cloud, Amazon annonce également la disponibilité de Sonnet 4.6 dans Amazon Bedrock.
Faut-il encore “payer l’Opus” ?
Anthropic pose une frontière nette : Opus 4.6 resterait le meilleur choix pour les tâches qui exigent “le plus haut niveau” de raisonnement, comme le refactoring de codebase, la coordination de plusieurs agents dans un workflow, et les situations où “il faut que ce soit parfaitement juste”.
C’est cohérent avec la logique produit : Sonnet 4.6 vise à devenir la bête de somme premium, celle qu’on peut appeler plus souvent, plus longtemps, à budget plus stable. Et Opus garde le rôle du spécialiste, du modèle qu’on sort quand on veut minimiser le risque d’erreur sur une opération délicate.
Ce que Sonnet 4.6 change, concrètement
Si on résume sans réduire, Sonnet 4.6 déplace le centre de gravité de l’usage quotidien. Il ne promet pas seulement “plus intelligent”. Il promet “plus utilisable”, sur des tâches longues, avec beaucoup de matière, et dans des environnements logiciels réels.
Et la combinaison est redoutable : grand contexte (même en bêta et plutôt côté API), progrès sur l’agentic computer use, et durcissement sur les attaques de type prompt injection.
Autrement dit, l’IA n’est plus cantonnée au rôle du stagiaire qui rédige vite. Elle se rapproche du collègue qui prend un dossier entier, ouvre les fichiers, suit une procédure, et rend quelque chose de cohérent sans vous demander de faire la police toutes les deux minutes. Le fantasme n’est pas l’autonomie totale. Le vrai graal, c’est l’autonomie utile.
- Partager l'article :


