Les modèles d’IA progressent à une vitesse fulgurante, mais une récente étude d’OpenAI révèle une limite persistante. Malgré des avancées impressionnantes, même les IA les plus puissantes ne parviennent pas à égaler les développeurs humains dans la résolution des tâches complexes de programmation.
Sam Altman, PDG d’OpenAI, a récemment affirmé que l’IA surpasserait les ingénieurs de « bas niveau » avant la fin de l’année. Pourtant, les conclusions des chercheurs contredisent cette prédiction. Malgré des progrès notables, les modèles d’OpenAI échouent encore sur la majorité des problèmes de programmation.
Pour évaluer IA, les chercheurs ont utilisé SWE-Lancer, un benchmark basé sur 1 400 tâches issues de la plateforme de freelancing Upwork. Trois modèles ont été testés : GPT-4o, o1 et Claude 3.5 Sonnet d’Anthropic.
Une rapidité d’exécution, mais des solutions incomplètes
Les IA ont résolu certaines tâches basiques en donnant des codes avec une vitesse impressionnante. Cependant, leur rapidité n’a pas suffi. Elles ont proposé des correctifs souvent imprécis ou incomplets, car elles n’ont pas su analyser correctement le contexte des bugs.
Sans accès à Internet, ces modèles n’ont pas pu récupérer des solutions existantes. Ils ont donc dû raisonner seuls, ce qui a révélé leurs limites. Malgré une puissance de calcul importante, les IA ont échoué à comprendre les relations complexes entre différentes parties du code.
Les chercheurs ont constaté que Claude 3.5 Sonnet obtenait de meilleurs résultats que les modèles d’OpenAI. Il a même généré plus de gains simulés sur Upwork. Pourtant, ses réponses restaient souvent erronées. Pour être réellement fiable, une IA devrait fournir un taux de réussite bien plus élevé.
Une IA encore incapable de gérer un projet dans son ensemble
L’étude met en évidence une faiblesse majeure des modèles d’IA : ils excellent sur des tâches isolées, mais échouent à gérer un projet complet. Leur manque de compréhension globale limite leur capacité à résoudre des problèmes complexes.
Malgré des avancées rapides, ces IA ne rivalisent pas encore avec les ingénieurs humains. Pourtant, certaines entreprises continuent de réduire leurs effectifs en pariant sur des outils encore immatures. Cette approche pourrait entraîner plus d’erreurs et une perte de productivité à long terme.
L’intelligence artificielle progresse, mais elle reste un outil d’assistance. Pour l’instant, elle ne peut pas remplacer l’expertise et l’expérience des développeurs humains.
- Partager l'article :
Euh.. ce taux d’échec s’explique également par la coupure volontaire d’accès à Internet, car il y a des intelligences artificielles qui se connectent à des dépôts github et autres qui sont beaucoup, beaucoup plus douées.
Un exemple ? J’ai pu créer un site e commerce complet à 80 % avec L’IA. Plus rapide et mieux optimisé que la plupart des sites similaires.
Point de vue un peut simpliste. L etude porte sur de ai seul. Altman a fait cette remarque deux semaines après la conférence de github spark. Cette outils fonction en combinant des mini application. Que l ai articule. Donc l ai seul c est vrai ne peut tout faire mais une ai dans un framework adapté a cette tâche vas balayer vos doutes …. Ces entreprise le savent … Pas vous …