Un développeur surpris d'avoir effacer des données

Il voulait gagner du temps avec Claude Code : l’IA efface deux ans et demi de travail

Un développeur pensait gagner du temps en laissant Claude Code gérer son infrastructure cloud. Quelques minutes plus tard, deux ans et demi de données disparaissaient. C’est l’histoire d’un bug d’IA spectaculaire.

Les agents IA de coding qui déploient des serveurs ou automatisent des tâches techniques promettent un gain de productivité impressionnant. Pour de nombreux développeurs, ces outils deviennent peu à peu des assistants qui gèrent des opérations autrefois longues et complexes.

Mais lorsqu’un agent IA reçoit trop de pouvoir dans un environnement sensible, la moindre erreur peut avoir des conséquences immédiates. C’est ce qui est arrivé à Alexey Grigorev. En confiant l’exécution de commandes d’infrastructure à Claude Code, il a accidentellement provoqué la suppression complète de son environnement de production. Bye bye deux ans et demi de données.

Claude Code exécute exactement ce qu’on lui demande

L’incident commence par une opération technique assez banale. Alexey Grigorev, créateur du site AI Shipping Labs, décide de migrer son projet vers AWS. Le développeur voulait mutualiser l’infrastructure avec celle d’un autre projet, DataTalks.Club, afin de réduire la complexité et les coûts d’exploitation.

Pour automatiser l’opération, il utilise Terraform, un outil très répandu qui permet de gérer toute une infrastructure informatique sous forme de code. Terraform peut créer ou supprimer des ressources complètes. Notamment les serveurs, les bases de données, les réseaux ou les systèmes d’équilibrage de charge.

YouTube video

Grigorev choisit alors de confier l’exécution de certaines commandes à Claude Code, un agent IA qui interagit avec l’environnement de développement. Son plan était de demander à l’IA de lancer un script Terraform pour configurer la nouvelle infrastructure. 

Mais il a oublié un détail critique dans l’opération, le fichier d’état Terraform. Alors que ce fichier décrit précisément la configuration actuelle du système. Sans lui, Terraform ne sait plus ce qui existe déjà et ce qu’il doit modifier.

Une chaîne d’erreurs qui mène au pire scénario

Au départ, l’opération semble fonctionner. Claude Code lance la configuration du site mais Grigorev interrompt le processus en cours de route. Certaines ressources sont donc créées deux fois. Pour corriger le problème, il demande à l’IA d’identifier les duplications. Cette fois, il ajoute enfin le fameux fichier d’état. Le développeur pensait que Terraform pourra réconcilier la configuration correctement.

Et c’est ici que tout bascule. Avec ce nouveau ajout, l’outil comprend que l’infrastructure actuelle ne correspond pas à celle décrite dans le fichier d’état. La logique de Terraform est alors de détruire ce qui ne correspond pas pour repartir sur une configuration propre. Claude Code exécute ainsi une commande de type destroy.

En quelques secondes, toute l’infrastructure disparaît. Les deux sites sont supprimés. Mais surtout, la base de données principale est effacée. Elle emporte avec elle deux ans et demi d’enregistrements. Les instantanés censés servir de sauvegardes disparaissent eux aussi.

A mon avis, l’IA n’a pas buggé, elle a obéi. La tentation est forte de pointer du doigt Claude Code. Pourtant, l’outil n’a pas improvisé. Il a simplement exécuté les instructions logiques de Terraform à partir des informations disponibles. Sans comprendre le contexte global des projets, l’agent IA a appliqué une règle simple. Il a aligné l’infrastructure sur la configuration décrite.

Le problème est donc ailleurs. Dans son analyse détaillée publiée sur son blog, Alexey Grigorev reconnaît lui-même avoir trop compté sur l’agent IA pour exécuter des commandes critiques. Il souligne aussi deux failles importantes dans sa configuration. Des permissions beaucoup trop larges et l’absence de protections contre les opérations destructrices.

Mais lorsqu’on parle d’environnement de production, ces garde-fous sont pourtant considérés comme des pratiques de base. L’épisode rappelle une règle bien connue dans l’administration système. Les outils d’automatisation sont puissants, mais ils ne pardonnent aucune erreur de contexte.

Les nouvelles bonnes pratiques après la catastrophe

Heureusement, l’histoire se termine mieux qu’elle n’avait commencé. Après avoir contacté le support AWS, Grigorev parvient à restaurer ses données en environ une journée. L’incident a toutefois conduit à une refonte complète de sa manière de travailler.

Parmi les mesures mises en place, il effectue maintenant des tests réguliers de restauration de base de données. C’est pour vérifier que les sauvegardes fonctionnent réellement. Il a également ajouté des protections contre la suppression dans les permissions Terraform et AWS. Cela empêchera toute destruction accidentelle de ressources critiques.

Par ailleurs, le fichier d’état Terraform n’est plus stocké localement. Il se trouve désormais dans un stockage S3 sécurisé, ce qui réduit les risques d’incohérence.

Enfin, la décision la plus radicale concerne l’IA elle-même. Les commandes destructrices ne sont plus exécutées automatiquement. Dorénavant, chaque plan Terraform généré par Claude Code est examiné manuellement avant d’être appliqué.

YouTube video

J’avoue que les agents IA sont de plus en plus capables d’agir directement sur les systèmes. Que ce soit pour écrire du code, déployer des services pour modifier des infrastructures. Mais cette puissance crée une illusion dangereuse.

Une IA ne possède ni intuition opérationnelle ni compréhension implicite des priorités d’un projet comme un administrateur humain. Elle suit simplement les règles qu’on lui donne. Dans le cas présent, Claude Code n’a pas pris une mauvaise décision. Il a appliqué une logique technique dans un environnement mal préparé.

Les agents autonomes gagnent du terrain dans le monde du développement. Je pense que ce type d’incident risque donc de devenir un véritable sujet d’ingénierie. Alors, les équipes devront apprendre à concevoir des infrastructures qui résistent aux erreurs. Y compris celles générées par leurs propres outils d’automatisation. Car l’IA peut accélérer énormément le travail. Mais sans garde-fous solides, elle peut aussi accélérer les catastrophes.

Restez à la pointe de l'information avec LEBIGDATA.FR !

▶ Abonnez-vous à notre chaîne YouTube et Ajoutez-nous à vos favoris sur Google Actualités
Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Newsletter

La newsletter IA du futur

Rejoins nos 100 000 passionnés et experts et reçois en avant-première les dernières tendances de l’intelligence artificielle🔥