C’est toujours frustrant lorsqu’on utilise un modèle linguistique volumineux et qu’il a tendance à fabriquer des informations, à créer des réponses qui ne sont pas étayées par ses données d’entraînement. Est-ce qu’il ne peut pas tout simplement dire « Je ne sais pas » au lieu d’inventer des réponses qui semblent pourtant crédibles.
Des recherches récentes menées par Anthropic dévoilent une partie du réseau neuronal interne qui aide un LLM à déterminer quand tenter une réponse ou quand refuser de répondre. Bien que la compréhension humaine de ce processus de « décision » interne au LLM soit encore limitée, ce type de recherche pourrait ouvrir la voie à des solutions plus efficaces pour résoudre le problème de la confabulation de l’IA.
Comment fonctionnent les mécanismes internes des LLM ?
Dans un article révolutionnaire publié en mai dernier, Anthropic a utilisé un système d’auto-encodeurs clairsemés pour explorer les groupes de neurones activés lorsque le LLM Claude rencontre des concepts internes.
Il peut s’agir du « Golden Gate Bridge » ou encore des « erreurs de programmation », des groupes désignés par Anthropic comme des « caractéristiques ». D’ailleurs, nous allons l’utiliser également dans cet article.
Ensuite, cette semaine, Anthropic a publié les résultats de ces recherches. Son équipe a approfondi ces travaux en retraçant l’impact de ces caractéristiques sur d’autres groupes neuronaux. C’est ce qui a permis de représenter les « circuits » de décision que Claude suit pour générer ses réponses.
Comment Claude décide de répondre ou de s’abstenir ?
Dans deux articles, Anthropic explique en détail comment l’analyse partielle de certains circuits neuronaux internes éclaire la façon dont Claude « pense » en plusieurs langues.
On y trouve aussi une explication sur la manière dont il peut être manipulé par des techniques de jailbreak, et même la véracité de ses fameuses « chaînes de pensée ».
Cependant, la section qui décrit le processus de « reconnaissance d’entités et d’hallucination » de Claude offre l’une des explications les plus détaillées sur ce problème complexe.
Plus précisément, les grands modèles linguistiques sont conçus pour prédire le texte qui suit le plus probablement dans une séquence donnée.
Cette approche, qualifiée par certains de « complétion automatique glorifiée », est efficace lorsque l’invite correspond bien aux données d’entraînement du modèle.
Toutefois, pour des « faits ou sujets relativement obscurs », cette tendance à compléter de manière systématique incite les modèles à « deviner des complétions plausibles » pour des blocs de texte, selon les chercheurs d’Anthropic.
Comment lutter contre cette tendance ?
Le réglage fin permet de limiter ce problème. Le fonctionnement est simple, car le réglage permet de guider le modèle à agir comme un assistant. De ce fait, il devrait refuser de répondre lorsque ses données d’entraînement sont insuffisantes.
Ce processus crée des ensembles distincts de neurones artificiels que les chercheurs peuvent observer s’activer lorsque Claude rencontre une « entité connue » (comme « Michael Jordan ») ou un « nom inconnu » (par exemple « Michael Batkin ») dans une invite.
L’activation du circuit « nom inconnu » tend à promouvoir un mécanisme interne « impossible de répondre ». Face à cette situation, il serait ainsi obligé de répondre par « Je m’excuse, mais je ne peux pas… », expliquent les chercheurs.
Ils ont découvert que ce circuit est souvent activé par défaut dans la version « assistant » du modèle Claude. De ce fait, il serait plus réticent à répondre à moins que d’autres fonctionnalités neuronales ne l’y encouragent.
Alors, qu’en pensez-vous ? Est-ce que le réglage est le seul moyen de lutter contre cette tendance ?
- Partager l'article :