De simples notes manuscrites pour tromper l’IA d’OpenAI

Des chercheurs du laboratoire d'apprentissage automatique ont découvert que leur système de vision par ordinateur de pointe pouvait être trompé par des outils pas plus sophistiqués qu'un stylo et un bloc-notes. Il suffit en effet d'écrire le nom d'un objet et de le coller sur un autre pour que le logiciel mette en évidence des difficultés d'identification. 

Des attaques typographiques

Il s'agirait d'attaques typographiques, déclarent les chercheurs. En exploitant la capacité du modèle à lire le texte de manière robuste, ils constatent que même les photographies de texte écrit à la main peuvent souvent tromper le modèle. Ils notent que ces attaques sont similaires aux images contradictoires qui peuvent tromper les systèmes de vision industrielle du commerce, mais sont beaucoup plus simples à produire.

Les images contradictoires présentent un réel danger pour les systèmes qui reposent sur la vision industrielle. Des chercheurs ont par exemple montré qu'ils pouvaient tromper le logiciel des voitures autonomes de Tesla pour changer de voie sans avertissement en plaçant simplement certains autocollants sur la route. De telles attaques constituent une menace sérieuse pour une variété d'applications de l'IA de tous les secteurs, du médical à l'armée.

Des recherches sur un système expérimental

Le danger posé par cette attaque spécifique n'est, du moins pour l'instant, pas inquiétant. Le logiciel OpenAI en question est un système expérimental nommé CLIP qui n'est déployé dans aucun produit commercial. En effet, la nature même de l'architecture inhabituelle d'apprentissage automatique de CLIP a créé la faiblesse qui permet la réussite de cette attaque.

CLIP est destiné à explorer comment les systèmes d'IA pourraient apprendre à identifier des objets sans supervision étroite en s'entraînant sur d'énormes bases de données de paires d'images et de textes. Dans ce cas, OpenAI a utilisé quelque 400 millions de paires image-texte extraites d'Internet pour former CLIP, dévoilé en janvier.

Des neurones multimodaux pour CLIP

Les chercheurs ont découvert ce qu'ils appellent des neurones multimodaux. Ce sont des composants individuels du réseau d'apprentissage automatique qui répondent non seulement aux images d'objets, mais également aux croquis, aux dessins animés et au texte associé. Cela semble refléter la façon dont le cerveau humain réagit aux stimuli, où des cellules cérébrales uniques ont été observées répondant à des concepts abstraits plutôt qu'à des exemples spécifiques. Les recherches d'OpenAI suggèrent qu'il est possible que les systèmes d'IA intériorisent ces connaissances de la même manière que les humains.

À l'avenir, cela pourrait conduire à des systèmes de vision plus sophistiqués. Les chercheurs ont également découvert que les neurones multimodaux de CLIP encodent exactement le type de biais qu'on pourrait trouver lors de la recherche de données sur Internet. Ils notent par exemple que le neurone du Moyen-Orient  est associé au terrorisme. Ils ont aussi découvert un neurone qui se déclenche à la fois pour les personnes à la peau foncée et les gorilles. Cela reproduit une erreur infâme du système de reconnaissance d'images de , qui a étiqueté les noirs comme des gorilles.

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter