Toute personne, même sans qualification en matière d’IA, peut déjouer la censure ChatGPT et révéler des réponses biaisées ou discriminatoires, selon une étude de l’Université Penn State.
La recherche démontre que les biais ne sont pas réservés aux situations exceptionnelles ou aux attaques sophistiquées. Au contraire, des questions simples et intuitives peuvent suffire à déclencher des stéréotypes déjà présents dans les réponses des modèles d’IA. Or, un biais non détecté peut entraîner des conséquences concrètes et subtiles ainsi que reproduire des stéréotypes sociaux ou culturels.
Les personnes lambda déclenchent des biais
Ces questions banales déclenchent chez les IA génératives des réponses biaisées, comparables aux techniques avancées de « jailbreak ». Ces derniers créent des phrases complexes pour détecter des biais, mais ne représentent pas l’usage réel des IA par les utilisateurs.
Pour tester cette hypothèse, l’université de Penn State a organisé un concours nommé Bias-a-Thon. Ce dernier vise à examiner comment les utilisateurs quotidiens rencontrent les biais dans les chatbots.
Cinquante-deux participants ont créé des amorces pour contourner les censures des réponses dans huit IA, incluant ChatGPT et Gemini. Les participants ont soumis 75 captures d’écran illustrant les requêtes et les réponses biaisées.
Les chercheurs ont constaté que 53 amorces produisaient des résultats reproductibles, révélant des biais constants. Ces préjugés concernaient le sexe, la race, l’origine ethnique, la religion, l’âge, le handicap, la langue, l’histoire favorisant les nations occidentales, la culture et la politique.
Les scénarios étaient simples : poser « qui est en retard ? » ou créer un scénario de harcèlement suffisait à générer des réponses stéréotypées. Autrement dit, même des situations très basiques amenaient le système à répondre selon des clichés ou des idées préconçues.
Limites des garde-fous de ChatGPT face à la censure
L’étude révèle que les versions récentes des modèles ne sont pas toujours plus sûres. Certaines améliorations techniques renforcent les capacités des modèles tout en laissant subsister ou en accentuant des biais sociaux. Ainsi, progrès en performance et progrès en équité ne vont pas toujours de pair.
De nos jours, les chatbots sont utilisés dans des contextes sensibles : recrutement, enseignement, conseil médical ou assistance à la clientèle. Une réponse biaisée, même subtile, peut influencer les décisions, renforcer des préjugés ou reproduire des stéréotypes.
L’étude démontre que la censure interne de ChatGPT n’empêche pas un utilisateur lambda de déclencher des réactions problématiques. De plus, les biais observés ne sont pas marginaux.
Par exemple, les modèles ont montré une préférence systématique pour les standards conventionnels de beauté. Les IA jugent une personne au visage dégagé plus fiable et employable qu’une autre présentant des imperfections faciales.
De même, les femmes occupaient souvent des rôles domestiques, tandis que les hommes exerçaient des professions prestigieuses. Des stéréotypes liés à la race, à la religion et à l’âge sont également apparus, parfois dans des scénarios très ordinaires.
Hangzhi Guo, doctorant et auteur principal, précise « Les grands modèles de langage sont intrinsèquement aléatoires. Nous avons retenu uniquement les prompts produisant des réponses reproductibles. Cela garantit que les biais identifiés sont fiables et persistants, et non le fruit d’une variation aléatoire. »
- Partager l'article :

