Apple dévoile sa propre IA pour créer de l’image et du texte : MM1

Bastien L. 18 mars 2024 3 minutes de lecture IA générative, Intelligence artificielle

Apple vient de dévoiler sa propre IA multimodale, MM1, capable de comprendre et potentiellement de générer aussi bien du texte que des images. Un projet de recherche scientifique, qui pourrait toutefois devenir une nouvelle version de l'assistant Siri…

Nous vivons une époque surprenante. Longtemps réputée pour la fermeture totale de ses logiciels, Apple vient de créer une IA plus ouverte qu'OpenAI dont l'ouverture est censée être la caractéristique principale…

Les chercheurs de la Pomme viennent de partager leurs travaux sur un LLM (large modèle de langage) d'intelligence artificielle multimodale.

Les chercheurs Apple révèlent leur IA multimodale

We live in such strange times. Apple, a company famous for its secrecy, published a paper with staggering amount of details on their multimodal foundation model. Those who are supposed to be open are now wayyy less than Apple.

MM1 is a treasure trove of analysis. They discuss… pic.twitter.com/IentvLdb3Z
— Jim Fan (@DrJimFan) March 16, 2024

À travers une étude publiée en ligne le 14 mars 2024 sur le portail arXiv, Apple met en lumière la façon dont elle a entraîné un modèle sur des données textuelles et des images.

Le document ne mentionne pas directement Apple, mais la plupart des chercheurs cités sont en lien avec la division Machine Learning de l'entreprise. Tout porte donc à croire que le projet émane de la firme de Cupertino.

Les modèles multimodaux de cette famille, baptisée MM1, contiennent jusqu'à 30 milliards de paramètres. Leur architecture regroupe différents composants : des encodeurs d'image, un connecteur de vision et de langage…

Ceci a permis de donner naissance à un modèle IA capable de comprendre à la fois les prompts textuels et ceux prenant la forme d'images.

Une approche de préentraînement novatrice et prometteuse

Curated a few takeaways from the Apple MM1 paper to share:

Encoder lesson: Image resolution has the highest impact, followed by model size and training data composition.

+15% perf 336px to 1702px
+3% perf 224px to 336px
+1% perf ViT-L to ViT-H (doubling in parameters)
+3% perf… pic.twitter.com/uzgo5nEo4j
— Timothy L.J. Stewart (@tljstewart) March 17, 2024

Comment l'expliquent les chercheurs, « nous démontrons que pour le préentraînement multimodal à grande échelle, l'utilisation d'un mix d'image-légende, de textes et d'images entrelacées, et de données textuelles est cruciale pour atteindre des résultats de pointe sur de multiples benchmarks ».

Ce modèle IA est actuellement encore en phase de pré-entraînement, et n'est donc pas encore suffisamment entraîné pour générer les résultats demandés.

C'est au cours de cette étape que l'algorithme et l'architecture IA sont utilisés pour concevoir le workflow du modèle et la façon dont il traite les données.

Les chercheurs d'Apple ont été capables d'ajouter la vision par ordinateur au modèle en utilisant des encodeurs d'image et un connecteur vision langage.

Lors des tests, ils ont réalisé que les résultats étaient supérieurs aux modèles existants au même stade de développement.

Leur approche semble donc plus concluante que les autres méthodes de pré-entraînement, ce qui pourrait permettre d'importants progrès dans le domaine de l'IA.

Vers un nouveau Siri supérieur à ChatGPT ?

Alors, peut-on s'attendre à ce que cette IA soit incorporée aux produits Apple dans un avenir proche ? Début février 2024, lors de l'annonce des résultats financiers, le CEO Tim Cook avait estimé que des fonctionnalités IA seraient présentées plus tard dans l'année…

Il est possible qu'Apple lance une nouvelle version de Siri comparable à ChatGPT, capable de comprendre n'importe quelle requête et de générer du texte ou des images.

Cependant, ce papier de recherche n'est pas suffisant pour déterminer les véritables projets de la Pomme dans le domaine de l'intelligence artificielle.

En parallèle, le bruit court qu'Apple serait en discussion avec Google pour intégrer l'IA Gemini à la prochaine version d'iOS pour iPhone et iPad…

Néanmoins, comme tous les géants de la tech, il est clair qu'Apple ne peut faire l'impasse sur l'IA et se doit d'investir massivement dans la recherche pour dominer cette nouvelle technologie révolutionnaire !

Restez à la pointe de l'information avec LEBIGDATA.FR !

Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités pour garder une longueur d'avance.

Partager l'article :

Facebook
Twitter
LinkedIn

Apple ChatGPT Gemini Google OpenAI Tim Cook Twitter

Apple dévoile sa propre IA pour créer de l’image et du texte : MM1

Les chercheurs Apple révèlent leur IA multimodale

Une approche de préentraînement novatrice et prometteuse

Vers un nouveau Siri supérieur à ChatGPT ?

Sur le même sujet

Newsletter

Laisser un commentaire

Apple dévoile sa propre IA pour créer de l’image et du texte : MM1

Les chercheurs Apple révèlent leur IA multimodale

Une approche de préentraînement novatrice et prometteuse

Vers un nouveau Siri supérieur à ChatGPT ?

Sur le même sujet

JO Paris 2024 : l’IA prédit les médailles d’or et les records battus

L’armée anglaise teste cette IA qui indique aux soldats quand tirer

L’IA est en train de s’auto-détruire, et l’industrie commence à paniquer

Newsletter

Laisser un commentaire