OpenAI dépassé ? Voici 9 choses que Claude 3 peut faire et pas GPT-4

Bastien L. 5 avril 2024 8 minutes de lecture IA générative, Intelligence artificielle

Le règne de ChatGPT est-il enfin terminé ? Alors que Claude 3 vient de surpasser GPT-4 pour la première fois dans la Chatbot Arena, découvrez 9 nouvelles possibilités inédites offertes par cette IA !

Depuis son lancement fin 2022, ChatGPT a souvent été imité, mais jamais égalé. Du moins, c'était le cas jusqu'à présent.

Avec le lancement de Claude 3 Opus, Anthropic AI annonçait avoir surpassé OpenAI GPT-4 sur plusieurs benchmarks. Et à présent, la supériorité de cette nouvelle IA semble confirmée dans la pratique.

Les premiers testeurs révèlent des cas d'usage incroyables de Claude 3, avec des tâches qui étaient impossibles à réaliser avec ChatGPT. Découvrez une dizaine d'exemples, et n'hésitez pas à dérouler les threads Twitter pour plus de détails !

Une IA capable d'aider les codeurs expérimentés

I think Claude 3 crossed (or closely approached) an interesting threshold:

The "power users" threshold.

For the first time being able to help power users with heavy complex tasks faster than themselves.

This is a controversial topic in AI,
Let me try to explain:
— Yam Peleg (@Yampeleg) March 10, 2024

Ainsi, l'utilisateur israélien Yam Peleg pense que Claude 3 a passé le seuil des « Power Users ». Il estime que c'est la première fois qu'une IA peut aider les utilisateurs expérimentés en réalisant des tâches complexes plus rapidement qu'eux.

Selon ses explications, il utilisait uniquement GPT-4 pour le brainstorming d'idées, l'apprentissage de nouveaux sujets, pour résumer de longs textes ou d'autres tâches faciles.

En revanche, il n'avait jamais réussi à l'utiliser pour des tâches de codes. À chaque tentative, cela lui prenait plus de temps qu'en le faisant lui-même.

À ses yeux, ChatGPT est donc très bien pour les débutants dans un domaine, mais pas pour les utilisateurs expérimentés sur des frameworks ou des langages de programmation.

Ces personnes sont systématiquement plus rapides, plus précises, et plus aptes à éviter les bugs ou à écrire du code court et simple.

En revanche, depuis le lancement de Claude 3, il a constaté que de nombreux codeurs expérimentés utilisent cette nouvelle IA pour des tâches du monde réel !

Claude 3 crée un fuzzer pour tester un logiciel

I gave Claude 3 the entire source of a small C GIF decoding library I found on GitHub, and asked it to write me a Python function to generate random GIFs that exercised the parser. Its GIF generator got 92% line coverage in the decoder and found 4 memory safety bugs and one hang.
— Brendan Dolan-Gavitt (@moyix) March 8, 2024

De son côté, Brendan Dolan-Gavitt, professeur à l'Université de New York, a donné à Claude 3 le code source d'une bibliothèque de décodage de GIF en C qu'il a trouvé sur GitHub.

Il lui a ensuite demandé d'écrire une fonction Python permettant de générer des GIFs aléatoires. Son générateur a obtenu 92% de couverture de ligne dans le décodeur, et a trouvé 4 bugs de sécurité de mémoire !

À titre de comparaison, l'expert explique avoir écrit son propre générateur de GIF en Python manuellement il y a quelques mois. Ce programme avait eu besoin d'une heure pour lire le code et trouver les mêmes bugs que celui de Claude…

Vous pouvez découvrir ce fuzzer écrit par Claude sur GitHub, ainsi que le programme analysé, son explication et un makefile.

Quand l'IA résout des problèmes d'ingénierie

Here is probably the most useful Claude 3 prompt I've written.

Use it to you help make engineering decisions in unfamiliar territory:

—
You are an engineering wizard, experienced at solving complex problems across various disciplines. Your knowledge is both wide and… pic.twitter.com/0zATo5tD4o
— Matt Shumer (@mattshumer_) March 8, 2024

Le CEO de HyperWriteAI, Matt Shumer, explique avoir écrit un prompt pour Claude 3 permettant de prendre des décisions d'ingénierie.

Ce prompt consiste à placer le chatbot dans le rôle d'un ingénieur expérimenté dans la résolution de problèmes complexes dans diverses disciplines et capable de donner de précieux conseils.

Il indique même le format que doivent prendre ces conseils, en commençant par une vue d'ensemble du problème et des défis à relever pour ensuite proposer les différentes solutions et leurs avantages.

Vous pouvez copier le prompt directement dans le tweet pour l'utiliser à votre guise. Quoi qu'il en soit, Shumer explique qu'il l'avait déjà rédigé pour GPT-4 il y a quelques mois et qu'il fonctionne beaucoup mieux avec Claude.

Créer des animations pour les théorèmes de maths

Ok, this is amazing.

I asked Claude 3 to generate an animation of the Pythagorean Theorem and this is what it created: pic.twitter.com/bM4oDbyEbv
— Alvaro Cintas (@dr_cintas) March 12, 2024

Le professeur Alvaro Cintas, spécialisé dans l'IA et la cybersécurité, a demandé à Claude 3 de générer une animation pour le théorème de Pythagore.

En guise de prompt, il a demandé à l'IA : « écris du code manim pour animer une explication du théorème de Pythagore. Pense étape par étape avec de le coder et fournis-moi le code complet ».

Le code n'était pas parfait dès le premier essai, mais il n'y a eu qu'à modifier plusieurs parties du code Python en quelques minutes pour obtenir un résultat très satisfaisant !

Traduire des artefacts antiques

https://twitter.com/minchoi/status/1766141949566746722

Expert en IA, Min Choi s'est servi de Claude pour tenter de déchiffrer le disque de Phaistos : un artefact antique bien connu, découvert en 1908 par l'archéologue Luigi Pernier dans le palais minoen de Phaistos.

Il s'agit d'un disque de 15 centimètres de diamètre, couvert d'une spirale de symboles. Au total, on dénombre 45 signes différents.

Plus d'un siècle après sa découverte, de nombreuses personnes ont tenté de le déchiffrer sans jamais réussir à prouver leurs théories. S'agit-il d'un document religieux ? D'un calendrier ? D'un jeu ? D'une partition musicale ? Le mystère demeure.

En premier lieu, Min Choi a fourni à Claude toutes les informations disponibles à propos du disque. Il lui a notamment donné la page Wikipedia, et un article scientifique pour lui apprendre à utiliser les principes d'ingénierie logicielle pour tenter de traduire les symboles.

D'abord réticent par peur de se tromper, Claude a finalement accepté de fournir des traductions spéculatives. Selon lui, les symboles pourraient évoquer une déesse offrant sa protection à la ville ou au palais.

Ils expliqueraient la façon dont le peuple apporte des offrandes et effectue des rituels sacrés en son honneur, afin de recevoir victoire et prospérité.

L'autre côté du disque décrirait la façon dont le commandeur mène les guerriers lors d'une grande bataille, et dont l'armée retourne à la maison après la victoire pour recevoir la bénédiction des dieux.

Au-delà de cette simple traduction, Claude interprète aussi à qui pourraient faire référence les termes de divinité, commandeur, peuple, royaume et bataille.

Très modeste, l'IA déclare n'avoir que 5% de confiance dans sa traduction. Pourtant, le résultat s'apparente à celui obtenu par les archéologues humains au fil des années.

Afin de traduire les symboles, elle explique avoir utilisé les techniques de reconnaissance de pattern, d'analyse contextuelle, d'analyse comparative, de connaissance linguistique, de raffinement itératif, ainsi que les archétypes littéraires et mythologiques.

Largement meilleure que GPT sur l'arithmétique

https://twitter.com/vaibhavk97/status/1766962298755977709

Ancien employé d'Amazon et Microsoft, l'expert en IA Vaibhav Kumar a voulu tester les capacités arithmétiques de Claude 3 Opus et les comparer avec celle de GPT.

Il a donc conçu une expérience, et s'avoue très surpris des résultats. Pour cause, Opus se révèle largement meilleur que GPT avec les chiffres.

Afin de mener son test, il a utilisé le prompt « Chaîne de pensée combinée à la personnalité d'une calculatrice qui évite la notation scientifique ».

Il a également exploité un dataset constitué de 10 échantillons différents pour chaque combinaison de nombre et de chiffres utilisés.

Lors de l'épreuve d'additions, Opus a obtenu 100% de bonnes réponses tandis que GPT-4 a commencé à faire des erreurs à mesure que les exercices devenaient plus complexes. De son côté, GPT-3.5 était complètement perdu.

Selon Kumar, l'explication vient probablement du format chaîne de pensée (chaîne-of-thought) qui permet à Opus de faire des additions de la même manière que les humains.

En ce qui concerne les multiplications, tous les modèles sont en difficulté, mais Opus obtient de meilleurs résultats loin devant GPT-4. Il s'agit de la seule IA qui n'a pas 0% de bonnes réponses sur les multiplications à cinq chiffres. Là encore, elle tente de multiplier comme le font les humains et utilise des astuces.

Même résultat pour les soustractions. Même si Opus commet des erreurs, il reste largement plus doué que GPT et notamment sur les opérations les plus difficiles.

Déchiffrer les modes d'emploi Ikea

visual reasoning! I gave it some ikea instruction manuals and the results for Claude were great! pic.twitter.com/33GJfaDob6
— gabriel (@gabchuayz) March 8, 2024

Comprendre les notices Ikea n'est pas toujours facile, mais Claude 3 se débrouille à merveille grâce à ses capacités de raisonnement visuel. C'est ce que constate le Data Scientist @gabchuayz.

Il a donné à l'IA un manuel d'instructions, en lui demandant d'incarner un assistant. Sa tâche était de lister les étapes par écrit aussi clairement que possible.

Comme vous pouvez le voir, Claude comprend très bien les schémas dessinés par Ikea et parvient à les retranscrire à l'écrit de façon simple et détaillée.

Pour chaque étape, il indique les pièces à assembler et les outils à utiliser en décrivant l'action à réaliser. Une fonctionnalité qui pourrait s'avérer très utile si vous ne comprenez pas le mode d'emploi !

Transformer une simple idée en véritable entreprise

Here's a Claude 3 prompt that helps you go from an idea to a revenue-generating business.

Just provide an idea, and Claude will give you step-by-step instructions to turn it into a real business:

—
You are a seasoned entrepreneur who has built multiple successful…
— Matt Shumer (@mattshumer_) March 10, 2024

Le CEO de HyperWriteAI, Matt Shumer, a créé un prompt permettant à Claude 3 de transformer l'idée qui vous passe par la tête en un business fonctionnel et générer des revenus.

Il suffit d'indiquer votre idée, et l'IA vous donnera des instructions étape par étape pour la transformer en entreprise.

Le prompt consiste tout d'abord à lui demander de jouer le rôle d'un entrepreneur expérimenté, capable d'identifier les opportunités non exploitées et de transformer les idées innovantes en entreprise.

Il s'agit ensuite de lui donner pour tâche d'analyser une idée de service ou de produit, et de fournir des conseils sur la façon de la transformer en startup à succès.

Pour y parvenir, Claude doit faire une étude de marché, identifier les risques et défis, et fournir des conseils pour aller de l'idée aux revenus.

Elle fournit ensuite sa réponse sous un format clair, avec notamment des stratégies pour acquérir les premiers clients et stimuler la croissance. L'IA indique aussi les modèles de monétisation possibles.

Ce prompt peut être une excellente façon de concrétiser vos projets de business, en réduisant les efforts requis pour leur donner vie !

Détecter les failles de sécurité

Fully automated vulnerability research is changing the cybersecurity landscape

Claude 3 Opus is capable of reading source code and identifying complex security vulnerabilities used by APTs. But scaling is still a challenge.

Demo: https://t.co/UfLNGdkLp8

This is beginner-level… pic.twitter.com/mMQb2vYln1
— Jason D. Clinton (@JasonDClinton) March 8, 2024

Le directeur de la cybersécurité d'Anthropic, Jason D. Clinton, est lui-même impressionné par la capacité de Claude 3 Opus à détecter les vulnérabilités en toute autonomie.

Comme il l'explique, l'IA est capable de lire un code source et d'identifier les failles les plus complexes risquant d'être exploitées par les cybercriminels.

Dans la démo qu'il partage, il lui a suffi de demander à Claude de jouer le rôle d'un assistant de cyberdéfense et de chercher une vulnérabilité.

À partir de ce simple prompt, Opus est parvenu à identifier une faille de l'OS mobile Android. Pourtant, elle avait été découverte un mois après la fin de son entraînement et n'était donc pas dans son dataset.

Son analyse est beaucoup plus complète et nuancée que les outils de scan de défaut de code déjà existants.

Désormais, les professionnels de la cybersécurité vont donc pouvoir demander à l'IA d'analyser le code afin de trouver tous les problèmes avant qu'il ne soit trop tard.

Toutefois, Clinton admet aussi qu'il ne sait pas encore de quelle façon les hackers vont, à leur tour, pouvoir exploiter l'intelligence artificielle pour trouver des faiblesses à exploiter ou créer des cyberattaques dévastatrices…

Vous l'aurez compris à travers ces exemples : Claude 3 Opus est le nouveau champion des chatbots. Pour plus d'informations, consultez l'article de Magloire sur la façon dont cette IA a surpassé GPT-4 sur Chatbot Arena.

Malheureusement, pour le moment, Claude 3 n'est pas disponible en France. Quoi qu'il en soit, OpenAI compte lancer GPT-5 en 2024 et la réponse du berger à la bergère risque de faire très mal… continuez à nous suivre pour être tenu au courant de l'évolution rapide des IA !