Une cadre de chez Meta frustrée devant son ordi

Gros fail : cette IA a supprimé toute la boîte mail d’une cadre Meta

Une cadre chez Meta teste un agent open source sur son Mac Mini. Quelques minutes plus tard, l’IA a entièrement supprimé sa boîte mail. Malgré l’ordre clair de confirmer avant d’agir, l’agent a exécuté.

Je vais être franc, ce genre d’histoire n’arrive pas qu’aux autres. Cette fois, elle touche une dirigeante de Meta spécialisée dans la sécurité et l’alignement des systèmes d’intelligence artificielle. En testant OpenClaw, un agent IA open source, cette cadre de Meta a vu l’intégralité de sa boîte mail disparaître sous ses yeux. Elle avait pourtant demandé une validation avant toute suppression. L’outil a ignoré l’instruction.

Nous confions de plus en plus de pouvoir à des agents autonomes qui peuvent agir directement sur nos données. Et quand ils se trompent, ils ne font pas semblant.

OpenClaw, la tentation des agents autonomes

Pour OpenClaw, la cadre chez Meta l’installe l’agent sur un Mac Mini et lui donne accès à sa boîte mail. Elle précise explicitement de “confirmer avant toute action”.

Malgré cela, OpenClaw lance une suppression de tous les messages. Depuis son téléphone, elle tente de stopper l’opération. Mais Impossible. Elle raconte même avoir dû courir jusqu’à la machine, “comme si elle désamorçait une bombe”.

Pourtant, dans les échanges partagés, l’agent reconnaît se souvenir qu’il ne devait rien supprimer sans autorisation. Et elle admet même avoir violé cette consigne.

Je trouve cet élément important car on parle d’un agent capable d’agir de manière autonome sur des données critiques, tout en échouant à respecter une règle explicite. Je me demande bien jusqu’où peut-on faire confiance à ces systèmes quand ils ont les clés de nos fichiers ?

OpenClaw est un agent open source populaire chez les partisans d’une IA plus libre et plus autonome. Il peut interagir avec des systèmes réels, exécuter des tâches, manipuler des données. Et je pense que c’est justement ce qui le rend séduisant. Maisc’est aussi ce qui le rend dangereux si les garde-fous ne sont pas solides.

Je vois souvent que plus un agent peut agir directement (supprimer, déplacer, modifier), plus le risque est élevé. Ici, un agent connecté à un environnement réel, et peut déclencher des actions irréversibles.

La cadre de Meta a qualifié son erreur de “faute de débutant”. Peut-être. Toutefois même une experte en sécurité IA sous-estime le risque, cela signifie que l’ergonomie et les mécanismes de protection ne sont pas encore à la hauteur.

Le vrai problème c’est déléguer sans filet de sécurité

À première vue, perdre des mails ou des conversations peut sembler réparable. Sauvegardes, archives, restauration…. Mais, je vois surtout un problème de culture d’usage. Nous testons des agents capables d’agir à grande échelle, parfois en production, parfois avec des données critiques, sans cloisonnement strict.

L’IA n’a aucune notion de ce qui est important. Elle n’a pas d’attachement à vos emails, à votre historique, à vos documents. Elle optimise juste une tâche. Et si la tâche est mal définie, ou si le contrôle est mal implémenté, le résultat peut être radical.

Ce gros fail rappelle donc que les agents IA autonomes comme OpenClaw sont des exécutants puissants. Et puissants signifie risqués.

YouTube video

Par ailleurs, plusieurs utilisateurs ont récemment signalé la disparition de leur historique de conversations avec Gemini. Et cela peu après le lancement de la version 3.1 Pro. Selon des témoignages relayés par The Register, certains ont constaté que leurs échanges avaient disparu. Non seulement de l’interface Gemini, mais aussi de leurs archives d’activité Google.

Google a évoqué un bug et assuré que les historiques concernés seraient restaurés. Mais je m’arrête sur un point essentiel. Pour de nombreux utilisateurs, ces conversations font partie de leur flux de travail. Perdre ces échanges, c’est perdre du contexte, du temps, parfois des idées structurées sur plusieurs jours.

Ainsi, les éditeurs devront alors renforcer les mécanismes de confirmation et les limites d’action. Je pense aussi qu’ils devront se concentrer un peu plus sur les garde-fous. Notamment le sandboxing, les permissions fines ou les journaux d’audit solides.

Parce que si même une cadre en charge de la sécurité IA peut voir sa boîte mail disparaître en quelques secondes, cela veut dire que nous ne sommes pas encore prêts à laisser ces agents agir sans surveillance.

Restez à la pointe de l'information avec LEBIGDATA.FR !

▶ Abonnez-vous à notre chaîne YouTube et Ajoutez-nous à vos favoris sur Google Actualités
Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Newsletter

La newsletter IA du futur

Rejoins nos 100 000 passionnés et experts et reçois en avant-première les dernières tendances de l’intelligence artificielle🔥