Ce nouveau test va permettre de tester l’humanité des IA, mais pouvez-vous le passer ?

Alors que les IA continuent de repousser les limites de ce que l’on croyait possible, le Center for AI Safety (CAIS) a décidé de lancer un défi. « Tester l’humanité des IA ». Espérons que nous, en tant qu’humain, réussirons ce .

Tester l’humanité des IA … ou la nôtre ?

Les IA sont de plus en plus astucieuses, capables de contourner des règles que l’on pensait inviolables. Et alors qu’elles continuent de progresser, la ligne entre ce qu’elles peuvent accomplir et ce que nous comprenons devient floue. La technologie GPT-4o d’Open AI, par exemple, repousse les limites de ce qui nous semblait possible. Mais ce n’est qu’une formalité par rapport aux futurs modèles de la startup : la série o1

Le Center for AI Safety (CAIS), une organisation à but non lucratif, est bien conscient des risques que représente cette évolution constante. Ils ont donc conçu ce qu’ils appellent « le dernier examen de l’humanité ». L’idée est simple : trouver des questions si complexes que même les systèmes d’IA les plus sophistiqués seraient incapables de les résoudre. Ce test vise à évaluer jusqu’où une machine peut aller avant d’atteindre ses limites – et, par extension, celles de l’humanité.

Les grandes entreprises technologiques, souvent critiquées pour leur manque de transparence, prennent ce problème au sérieux. La plupart ont d’ailleurs des comités dédiés à la sécurité de l’IA. Toutefois, identifier les bonnes questions pour tester des machines reste un défi de taille. CAIS souhaite ainsi rassembler des propositions de questions complexes venant du public pour bâtir la plus grande collection jamais réalisée. « Ensemble, nous collectons l’ensemble de questions le plus difficile et le plus large jamais créé. »

Creusez-vous les méninges et mettez les IA les plus sophistiqués au défi

Les premiers résultats montrent déjà que certaines questions déroutent les modèles actuels. À titre d’exemple, pour « Combien y a-t-il de frises Coxeter-Conway de type G2 ? », trois IA différentes ont donné trois réponses différentes. 

Par contre, o1-preview, le nouveau modèle d’, encore en version préliminaire, affiche déjà un QI de 120. Celui-ci a démontré sa capacité à résoudre des problèmes dignes d’un doctorat sans difficulté. Et ce n’est qu’un début : des versions plus avancées sont prévues pour la nouvelle série o1. Les «  » seront bientôt relégués au passé.

Et c’est exactement pour ce genre d’IA que CAIS veut créer un nouveau benchmark. L’objectif n’est pas seulement de tester ces systèmes, mais aussi d’encadrer leur évolution

Les auteurs des questions seront nommés co-auteurs du benchmark. Les meilleurs d’entre eux se partageront une récompense de 500 000 dollars. Si vous pensez pouvoir mettre une IA en difficulté, vous avez jusqu’au 1er novembre pour soumettre votre proposition. 

Restez à la pointe de l’information avec LEBIGDATA.FR !

Abonnez-vous à notre chaîne YouTube et rejoignez-nous sur Google Actualités pour garder une longueur d’avance.

Newsletter

Envie de ne louper aucun de nos articles ? Abonnez vous pour recevoir chaque semaine les meilleurs actualités avant tout le monde.

Cliquez pour commenter

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *