Dario Amodei, PDG de la startup IA Anthropic.

Cette startup domine l’industrie de l’IA, mais son PDG ne sait pas comment ça marche

Sylvia R. 12 mai 2025 2 minutes de lecture IA générative, Pause café ☕

Voilà une startup en IA qui prospère sans percer ses secrets. Dans un aveu surprenant, le PDG d’Anthropic révèle l’opacité des modèles d’IA.

Anthropic, une startup de pointe dans l’IA générative, est surtout connue pour son modèle Claude. Pourtant, selon son PDG, Dario Amodei, les créateurs ignorent encore les mécanismes précis qui sous-tendent les décisions de l’IA. Une admission formulée avec une rare franchise, récemment publiée dans un essai sur son site personnel.

L’IA générative échappe encore à ceux qui la conçoivent

« Personne ne comprend réellement comment ces systèmes fonctionnent », le PDG de la startup IA Anthropic. Les IA génératives rédigent, résument, créent des images. Toutefois, Amodei rappelle que ces modèles agissent comme des boîtes noires.

Lorsqu’un mot est choisi, lorsqu’une erreur surgit, impossible de saisir clairement ce qui a motivé cette décision. Cette opacité vient de leur conception même.

Les modèles s’entraînent sur d’immenses ensembles de données, en extrayant des motifs statistiques que leurs créateurs ne contrôlent pas vraiment. Le processus ressemble à la croissance d’une plante. Les conditions sont posées, mais la forme finale est imprévisible.

L’urgence des outils d’interprétabilité

Cette ignorance sur l’IA n’a rien d’anodin. L’opacité des modèles complique la détection de comportements inattendus ou problématiques.

Amodei, qui a cofondé Anthropic en 2021 après avoir quitté OpenAI pour des désaccords liés à la sécurité, fait de cette question une priorité.

La startup vise une IA plus sûre, mais cela nécessite une compréhension de ce qui se passe à l’intérieur des modèles. Pour cela, l’équipe explore l’interprétabilité mécaniste – une approche qui cherche à décoder les neurones artificiels, comme une IRM scrutant un cerveau humain.

Les progrès sont prometteurs, mais limités. Anthropic a repéré des millions de caractéristiques dans ses modèles, associées à des objets ou des idées. Pourtant, la majorité reste un chaos de notions superposées, un phénomène appelé superposition.

Certaines expériences, comme celle d’un modèle obsédé par le Golden Gate Bridge, prouvent qu’il est possible de manipuler ces caractéristiques. Mais comprendre l’ensemble du système reste hors de portée.

Plus les modèles grandissent, plus la tâche devient complexe. Et le temps presse, face à l’accélération de l’IA.