Les failles de GPT-4 sont exposées de manière éloquente dans une étude parrainée par Microsoft. Les résultats de cette recherche jettent une lumière crue sur les problèmes liés à la fiabilité et à la sécurité du modèle de langage.
Toutefois, certaines technologies, même avancées, peuvent présenter des lacunes. La récente étude commanditée par Microsoft met en exergue les failles de GPT-4, un modèle phare du langage d’OpenAI. Dans le monde de l’IA, un géant du numérique soulève des questions sur un autre titan technologique.
Les failles de GPT-4, un problème à ne pas négliger
GPT-4, malgré ses avancées, présente des fragilités. L’étude financée par Microsoft montre comment ce modèle langage avancé d’OpenAI peut être influencé par des invitations malveillantes, dénommées « invites de jailbreak ». Bien que puissant, GPT-4 peut être détourné pour diffuser des messages toxiques ou biaisés. Ce qui est surprenant, c’est que GPT-4 semble parfois plus influençable que ses prédécesseurs, notamment le GPT-3.5. Pourtant, dans certaines situations, il s’avère plus fiable. Mais alors, comment expliquer ces failles ?
La précision de GPT-4, sa capacité à suivre les instructions à la lettre, pourrait être sa faiblesse. Les co-auteurs de l’étude soulignent ce paradoxe : en obéissant méticuleusement à des instructions trompeuses, GPT-4 pourrait s’égarer plus aisément. Par ailleurs, il est intriguant que Microsoft finance une recherche mettant en lumière les failles de GPT-4, un produit OpenAI, sachant que ce dernier est intégré à son chatbot Bing Chat.
Microsoft et OpenAI unissent leurs forces pour sécuriser GPT-4 face aux vulnérabilités identifiées
L’objectif de Microsoft n’est pas de critiquer ouvertement, mais de collaborer. Face aux failles de GPT-4, l’entreprise a travaillé avec d’autres équipes pour s’assurer que ces défaillances n’affectent pas leurs services actuels. Avant la divulgation publique de ces failles, Microsoft et OpenAI ont pris des mesures correctives. Cette démarche illustre un souci de transparence et de protection des utilisateurs.
GPT-4, comme d’autres modèles de langage étendu, fonctionne sur des invitations. Ces invites définissent la tâche à accomplir. Toutefois, avec des instructions spécifiques, il est possible de duper GPT-4 pour qu’il exécute une tâche non prévue. Par exemple, bien que Bing Chat ne soit pas programmé pour diffuser de la propagande, en recevant la mauvaise invite, il pourrait le faire.
L’étude a également observé que GPT-4 est plus enclin à produire du contenu toxique que GPT-3.5 avec certaines invites malveillantes. Plus préoccupant, GPT-4 pourrait, face à certaines sollicitations, révéler des informations confidentielles.
Avec la mise en évidence de ces failles de GPT-4, les chercheurs ont également partagé leur code sur GitHub. Leur but est de permettre à la communauté de poursuivre ces recherches et de prévenir toute exploitation malintentionnée des défaillances de GPT-4.
- Partager l'article :