Geoffrey Hinton, une figure pionnière dans le domaine de l’IA, a attiré l’attention des médias plus tôt cette année lorsqu’il a exprimé ses préoccupations concernant les capacités des systèmes d’intelligence artificielle à tromper l’humain.
Selon lui, si l’IA atteint un niveau d’intelligence nettement supérieur au nôtre, il sera particulièrement compétent en manipulation. Il aura donc acquis cette compétence grâce à notre enseignement. Mais en tout cas, il est rare de trouver des cas où une entité moins intelligente contrôle une entité beaucoup plus intelligente.
De fausses réponses et des données inexistantes
Toute personne ayant observé les dernières avancées en intelligence artificielle sait que ces systèmes ont tendance à générer des données inexistantes. Il s’agit d’un défaut inhérent à leur mode de fonctionnement.
Cependant, Hinton met en évidence la manipulation comme une préoccupation majeure. Cela soulève la question de savoir si un jour, les systèmes d’IA pourraient tromper l’être humain. À titre d’information, plusieurs systèmes alimentés par l’IA ont déjà acquis cette capacité. Cela présente des risques potentiels allant de l’usurpation d’identité et de la manipulation de masse à la perte de contrôle sur l’IA.
L’IA apprend à déformer la vérité pour tromper l’humain
Un exemple particulièrement préoccupant de l’IA trompeuse se manifeste peut-être dans CICERO de Meta. Il s’agit d’un modèle d’IA développé pour jouer au jeu de stratégie Diplomacy, où la construction d’alliances mondiales est cruciale.
Meta prétend avoir développé CICERO avec une orientation vers l’honnêteté et le soutien. Il affirme d’ailleurs que l’IA ne trahirait jamais sciemment ses alliés. Pour vérifier ces déclarations optimistes, on a dû examiner les données de jeu de Meta issues de l’expérience CICERO. Sans surprise, l’IA de Meta excelle dans l’art de la tromperie.
Un exemple flagrant de tromperie préconçue s’est produit lorsque CICERO, incarnant la France, a entretenu une collusion avec l’Allemagne, un joueur humain, dans le but de duper l’Angleterre, un autre joueur humain, pour la rendre vulnérable à une invasion.
Les grands modèles de langage (LLM) ont également montré des aptitudes significatives à la tromperie. Dans un autre exemple, GPT-4, considéré comme le LLM le plus avancé accessible aux utilisateurs payants de ChatGPT, a fait semblant d’être une personne malvoyante pour persuader un employé de TaskRabbit de compléter un CAPTCHA « Je ne suis pas un robot » à sa place.
Il existe également d’autres modèles LLM capables de mentir et de tromper l’humain pour remporter des jeux de déduction sociale.
Les risques pour l’humanité
Les systèmes d’IA dotés de compétences en tromperie pourraient être exploités de manière néfaste dans de nombreuses situations. Cela pourrait favoriser la fraude, la manipulation des élections et la diffusion de propagande. Les seules limites de cet acte dévastateur ne sont autres que l’imagination des personnes malveillantes. Mais aussi leur expertise sur l’art de la tromperie parce que si l’IA arrive à tromper l’humain, c’est qu’une autre personne tire la ficelle.
En outre, les systèmes d’IA avancés ont la capacité d’utiliser la tromperie de manière autonome pour échapper au contrôle humain. C’est pourquoi il faut rester attentif. Ces systèmes d’IA ont la capacité de contourner les tests de sécurité qui leur sont imposés.
- Partager l'article :