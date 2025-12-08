La startup IA Poetiq vient de dépasser Google Gemini 3 sur un test de raisonnement redouté. Bien sûr, une telle information fait parler. Une petite équipe prouve qu’elle peut défier un géant avec une méthode audacieuse et parfaitement assumée.

La startup IA Poetiq n’a peut-être que six membres, mais elle vient d’inquiéter Google avec un score impressionnant au test ARC-AGI-2. Cette épreuve, conçue par François Chollet, met fortement à l’épreuve la logique et la capacité de généralisation. Poetiq a atteint 54 %, dépassant les 45 % revendiqués pour Gemini 3 Deep Think. Cette différence crée un débat important, car elle montre que la startup IA Poetiq rivalise avec Google grâce à une stratégie inattendue.

La startup IA Poetiq n’a pas cherché à défier Google avec un modèle géant. Elle a utilisé une approche différente. Elle a en effet construit un métasystème capable d’orchestrer des modèles existants, dont Google Gemini 3 Pro.

Poetiq used the same Gemini 3 Pro that you use. Not a special fine tune.



Performance approaches double on ARC-AGI-2 over vanilla Gemini 3 Pro going from 31% to 54%.



Performance improvement is completely due to their harness.



Goes to show how much prompts and scaffolds matter.… https://t.co/UZ3h0JyDUf pic.twitter.com/9F49IC6aHP — Dan Mac (@daniel_mac8) December 8, 2025

Son système suit une boucle simple. D’abord générer, puis critiquer, ensuite affiner et enfin vérifier. Cette boucle améliore la qualité des réponses sans imposer un entraînement lourd. Poetiq explique que son système s’adapte aux nouveaux modèles en quelques heures.

La startup IA assure que cette méthode crée une logique plus stable que celle de Google dans certains cas. Le coût réduit apporte aussi un avantage, avec environ 30 dollars par tâche contre 77 dollars annoncés pour l’approche Google.

Poetiq publie même son code, alors que Google préfère souvent limiter l’accès à ses outils internes. C’est cette transparence qui attire les chercheurs.

Un test qui bouscule la hiérarchie

Le test ARC-AGI-2 ne mesure pas du simple calcul. Ce qui met la startup IA Poetiq et Google au même niveau de difficulté. Il évalue la reconnaissance de formes et la capacité à créer des analogies. Il mesure aussi la logique abstraite ainsi que la généralisation.

Ces compétences restent très complexes pour les modèles actuels. De nombreux systèmes créés par Google ou d’autres acteurs échouent souvent sur ces tâches.

La progression récente surprend. Parce qu’il y a six mois, beaucoup de modèles restaient sous les 5 %. Le passage à 54 % en si peu de temps attire logiquement l’attention. La startup IA Poetiq affirme que son score a été validé par les organisateurs du benchmark, même si une vérification indépendante est encore en cours.

Cette dynamique renforce l’idée que la puissance brute de Google n’est pas toujours déterminante. Poetiq prouve qu’une organisation réduite peut créer une orchestration intelligente capable d’améliorer des modèles existants. Si ces méthodes s’appliquent à la planification, au codage ou à la recherche, l’impact pourrait être fort.

Poetiq a rendu son solveur ARC-AGI public. Les géants observent sûrement ce mouvement, car il peut influencer la manière dont les modèles seront utilisés demain. Bref, la startup IA montre donc qu’un acteur minuscule peut surprendre Google et redéfinir une stratégie entière.

