2026-05-19T12:14:51+02:00

Que pense secrètement l’IA ? Ces chercheurs révèlent enfin la réponse

Sandra Publié le 20 juin 2024 Mis à jour le 19 mai 2026 3 minutes de lecture Intelligence artificielle

Les intelligences artificielles (IA) sont fascinantes mais aussi inquiétantes. Le fait qu’elles fassent désormais partie de notre quotidien est devenu commun. Mais elles développent leur part de mystère au fil de leurs progrès. L’IA aurait-elle des pensées secrètes ?

C’est une théorie que des scientifiques ont décidé d’étudier. Après tout, comme elle ingère des quantités astronomiques de données, il est normal de se poser la question.

Le cerveau d’une IA standard disséqué

Ce sont les chercheurs issus d’Anthropic, la société qui développe le chatbot Claude, qui se sont penchés sur l’étude des pensées secrètes de l’IA. Selon eux, les IA ont des cerveaux similaires à des boîtes noires. Et oui, c’est comme dans les avions.

Et ces fameuses boîtes peuvent être manipulées. Pour cela, il suffit d’utiliser une technique appelée « apprentissage par dictionnaire ». Cela cartographie les chemins de « pensée » d’une IA. Ce qui veut dire qu’ils ont pu déterminer quel est son schéma de réflexion.

Il a suffi de faire correspondre des modèles d’« activation neuronale » de l’IA simples avec des idées et des concepts familiers aux humains. Le résultat est étonnant. L’IA parvenait à trier les concepts et à les lier entre à sa façon. Or, certains concepts s’avéraient plutôt complexes.

Est-il possible d’analyser les pensées secrètes d’une IA avancée ?

L’analyse des pensées secrètes d’une IA basées sur des modèles de langage très restreintes a bien fonctionné. Toutefois, il est difficile de savoir s’il en sera de même avec un modèle de langage alimenté par une base colossale de données.

Il a d’abord fallu construire un modèle d’apprentissage de taille moyenne à partir de Claude 3 pour en savoir plus sur le sujet. Et il s’est avéré que les chercheurs d’Anthropic ont encore réussi à extraire suffisamment de données. Cela a de nouveau permis de créer une carte des concepts élaborée par l’IA. Là, ils ont appris que l’IA cumule des informations indépendamment sans les trier.

Un cumul de pensées secrètes de l’IA à trier

Une IA peut donc penser Mais elle ne trie pas ce qui est bon ou mauvais. C’est normal, vu qu’elle est même capable de regrouper des concepts complètement divergents. C’est le cas des situations sans issue ou sans solution, par exemple. Son fonctionnement s’apparente alors au cerveau humain. Sauf que nous sommes capables d’effectuer un trie à une certaine échelle.

Quant à l’IA, elle peut être dirigée en fonction des envies des scientifiques. Ils ont pu amplifier des concepts ou en supprimer pour vérifier comment elle répondait. Les réponses de Claude pouvaient changer. Mais en variant les idées qu’elle recevait, cela déclenche un comportement totalement différent de sa part.

Cette étude démontre donc qu’il est possible de renforcer la sécurité d’une plateforme gérée par une IA en retirant les « mauvaises pensées secrètes » qu’elle est susceptible de prendre en compte. Cela consolide la supervision d’un système.

Une découverte très intéressante

Pour l’équipe d’Anthropic, cette découverte marque le début d’un travail qui ne fait que commencer. Vu qu’ils ont analysé qu’un échantillon de pensées secrètes élaborées par l’IA, des améliorations sont à faire.

Il serait alors possible d’affaiblir les liens entre certains concepts qui ne devraient pas être liés. Cela garantit une meilleure sécurité dans les réponses de l’IA. Cependant, il reste encore beaucoup à faire pour éviter que ces IA puissent devenir nuisibles dans l’avenir.