DALL-E : la nouvelle IA d’OpenAI crée des images à partir de textes

La société d’apprentissage automatique OpenAI développe des modèles qui améliorent la vision par ordinateur et peuvent produire des images originales à partir de textes. En quoi est-ce important ? Ces nouveaux modèles sont les dernières étapes pour créer des systèmes d’apprentissage automatique qui présentent des éléments d’intelligence générale, tout en effectuant des tâches réellement utiles dans le monde réel, sans se ruiner sur la puissance de calcul.

OpenAI : après le texte les images

DALL-E est un réseau neuronal qui peut prendre n’importe quel texte et en faire une image, déclare Ilya Sutskever, co-fondateur d’OpenAI et scientifique en chef. Cela inclut des concepts qu’il n’aurait jamais rencontrés à l’entraînement, comme le dessin d’un radis daikon anthropomorphique promenant un chien. DALL-E fonctionne un peu de la même manière que GPT-3, l’énorme modèle de transformateur qui peut entre autres générer des passages de texte originaux à partir de quelques mots.

CLIP, l’autre nouveau réseau neuronal, peut prendre n’importe quel ensemble de catégories visuelles et créer instantanément des descriptions textuelles très solides et fiables visuellement classifiables, explique Sutskever. Cela améliore les techniques de vision par ordinateur existantes avec moins de formation et une puissance de calcul moins coûteuse. L’année dernière, OpenAI a pu faire des progrès substantiels sur le texte avec GPT-3. Le monde ne se résumant pas au texte, c’est un pas vers l’objectif plus grand de construire un réseau neuronal qui peut fonctionner à la fois dans les images et le texte.

Comment ça marche ?

Pour la petite anecdote, OpenAI s’est inspiré d’une œuvre de Salvador Dali et du robot WALL-E de Pixar pour baptiser son modèle. Pour ce qui est du mode de fonctionnement, l’exemple suivant permettra de mieux comprendre comment ça marche. En entrant le corpus « une boîte de soupe sur laquelle figure le mot skynet », DALL-E génère plusieurs images de boîtes de conserve avec une étiquette mentionnant « skynet ». Le modèle peut prendre des concepts indépendants qui ne se ressemblent en rien et les rassembler en un objet fonctionnel, déclare Aditya Ramesh, le chef de l’équipe DALL-E.

CLIP pour sa part peut identifier des images, lui permettant de sous-titrer les images. Le véritable avantage du modèle est son efficacité, qui devient un problème plus important sur le terrain car le coût de calcul de la formation des modèles d’apprentissage automatique ne fait qu’augmenter. Certes, mais comme GPT-3, les nouveaux modèles sont loin d’être parfaits. Avec DALL-E en particulier. Celui-ci dépend de la façon exacte dont le corpus de texte est formulée pour pouvoir générer une image cohérente.

Pin It on Pinterest