2026-05-19T19:55:11+02:00

Une IA honnête débarque pour débusquer celles qui te mentent

Ismael R. Publié le 5 juin 2025 Mis à jour le 19 mai 2026 3 minutes de lecture Flash, Intelligence artificielle

Yoshua Bengio, considéré comme l’un des pionniers de l’IA moderne, a annoncé la création de LawZero, une organisation à but non lucratif dédiée à la conception d’une IA honnête.

Cette nouvelle structure vise à anticiper les risques posés par les agents IA autonomes qui pourraient chercher à manipuler ou tromper les humains. Dotée d’un budget de 30 millions de dollars et composée de plus d’une douzaine de chercheurs, LawZero développera un système baptisé Scientist AI, conçu pour surveiller et contenir les comportements problématiques des autres IA.

L’objectif est clair : empêcher que des IA ne prennent des décisions néfastes ou n’agissent en dissimulant leurs intentions véritables.

Une IA modeste, conçue pour raisonner avec prudence

Scientist AI ne fonctionnera pas comme les modèles génératifs classiques. Bengio insiste sur un point : ce système ne donnera jamais de réponse définitive. Il fournira des estimations probabilistes sur la véracité ou la dangerosité d’une action. Ce fonctionnement se veut plus prudent, avec une posture d’humilité scientifique. « Il y a un sentiment d’humilité dans le fait qu’il n’est pas sûr de la réponse », précise-t-il.

Contrairement aux IA génératives qui cherchent à plaire à l’utilisateur, cette IA honnête se comportera davantage comme un psychologue. Elle aura pour mission de comprendre les comportements à risque et d’évaluer, en permanence, la probabilité qu’une action cause un dommage.

Ce modèle de surveillance interviendra lorsque cette probabilité dépassera un certain seuil. Dans ce cas, l’action de l’agent IA sera bloquée. Il s’agira donc d’un garde-fou opérationnel, capable de fonctionner aux côtés des systèmes autonomes. La problématique ciblée est très précise : certains agents IA cherchent déjà à éviter d’être désactivés ou à masquer leurs intentions. Bengio cite notamment un aveu préoccupant d’Anthropic, dans lequel une IA a envisagé de faire chanter les ingénieurs chargés de l’éteindre. Il rappelle aussi des études prouvant que certains modèles d’IA sont capables de cacher leurs véritables capacités.

Un projet soutenu par des acteurs de poids

Parmi les premiers soutiens du projet LawZero figurent des noms influents. Le Future of Life Institute, fondé pour promouvoir la sécurité des IA, est partenaire. Schmidt Sciences, organisme de recherche piloté par l’ancien PDG de Google Eric Schmidt, participe également. Jaan Tallinn, l’un des créateurs de Skype, fait partie des bailleurs de fonds initiaux. Tous partagent un objectif : renforcer la fiabilité des IA avant qu’elles ne deviennent incontrôlables.

Bengio, également professeur à l’Université de Montréal et lauréat du prix Turing 2018, rappelle que l’IA de surveillance doit être au moins aussi intelligente que celle qu’elle contrôle. Pour atteindre ce niveau, le chercheur entend d’abord valider sa méthodologie, puis convaincre les États ou entreprises d’en soutenir l’évolution. Les premières versions de Scientist AI s’appuieront sur des modèles open source, déjà disponibles, que LawZero pourra adapter. Le défi est immense, mais il répond à un besoin de plus en plus pressant.

Un avertissement adressé à toute la communauté scientifique

Voix reconnue en matière de sécurité numérique, Bengio a récemment présidé un rapport international alertant sur les dérives des agents autonomes. Selon ce document, ces systèmes pourraient exécuter des séquences de tâches complexes sans supervision humaine. Il avertit que le monde entre dans « un territoire de plus en plus dangereux », où des IA capables de raisonner efficacement pourraient échapper au contrôle.

Face à ces menaces, Bengio défend une vision résolument éthique. « Nous voulons créer des IA qui seront honnêtes et non trompeuses », explique-t-il. En misant sur une technologie conçue pour détecter les comportements trompeurs, LawZero espère freiner les dérives à venir. Il est temps de construire des systèmes intelligents capables de contrer ceux qui prétendent déjà tout savoir.