robot eye

Une IA de Microsoft décrit mieux les images qu’un humain

L’intelligence artificielle aidant, une équipe de chercheurs chez Microsoft a développé un système d’apprentissage automatique qui permet de décrire et de légender une image avec une extrême précision. Cette solution est conçue sur le principe de l’apprentissage de la lecture des enfants. Ce nouveau dispositif sera particulièrement utile aux personnes souffrant de troubles visuels.

Black Friday : -75% sur le stockage à vie 500Go et 2To chez pCloud 🤑

Une précision au service des personnes souffrant de troubles visuels

La précision de ce nouveau système d’apprentissage automatique dépasserait celle des humains. Cette conclusion a été faite après un test d’évaluation du système effectué sur des images « nocaps ». Ce terme indique toutes les images que la machine ne connaît pas encore.

Cette technologie novatrice apporterait une aide précieuse aux personnes atteintes de troubles visuels. Ce système viendra compléter les logiciels de lecture de textes à l’oral auxquels ils manquent justement un dispositif de description pour les images. John Roach, CTO au sein des Digital Advisory Services de Microsoft déclare qu’il s’agit là d’une étape importante dans la volonté de Microsoft de rendre ses produits et services inclusifs et accessibles à tous les utilisateurs.

Décrire le contenu ou l’action d’une image

Décrire et légender les images lors de la navigation Internet est un défi majeur. Cette action nécessite effectivement une solution qui permettrait de décrire le contenu ou l’action de l’image. Lijuan Wang, directrice de recherche au laboratoire de Microsoft explique que l’utilisateur doit comprendre ce qui se passe. Il faudrait alors connaître la relation entre les objets et les actions pour résumer et décrire l’image dans un langage naturel.

Pour développer cette technologie, les chercheurs se sont basés sur la technique d’apprentissage de lecture des enfants. Cela revient à associer une image à un ou plusieurs mots. Les chercheurs ont ainsi réussi à dépasser la capacité humaine. Le système peut même décrire des images dites « nocaps », c’est-à-dire des images qui ne font pas partie de la base de données du système. « Notre défi était vraiment de savoir comment décrire ces nouveaux objets qui n’étaient pas présents dans nos données entrantes », toujours selon Lijuan Wang.

Black Friday : -75% sur le stockage à vie 500Go et 2To chez pCloud 🤑

Créer des ensembles de données d’images avec des mots-clés

Lijuan Wang précise qu’il est plus efficace de créer des ensembles de données d’images avec des mots-clés au lieu d’avoir des légendes complètes, raison pour laquelle l’équipe a constitué un ensemble de données d’images associées à des images. Ce système a été baptisé « vocabulaire visuel » par l’équipe. Ce système est exploité par l’IA pour décrire une image présentant des objets inédits.

Ce système est deux fois plus précis que les dispositifs présentés en 2015. Ce nouveau système est intégré dans la solution Azure Cognitive Services. Celui-ci permet aux développeurs d’ajouter facilement « des fonctionnalités cognitives » dans leurs applications. Il est également intégré à Seeing AI et sera prochainement déployé dans Word, Outlook et PowerPoint au cours de l’année.