La fausse révolution des agents IA reste bloquée dans le code

Entre le marketing qui promet la fin du travail manuel et les démos léchées sur les réseaux, on te vend un futur où l’IA remplace ton boulot, que tu sois comptable, plombier ou prof. Sauf que la réalité, c’est que ces mêmes agents passent leur temps à coder comme des stagiaires bourrés, et c’est à peu près tout.

Une étude conjointe de Carnegie Mellon et Stanford vient de le confirmer de la manière la plus sèche possible. Après avoir analysé 72 000 tâches dans les benchmarks mainstream, les chercheurs ont découvert que l’évaluation des agents IA souffre d’une « dépendance au sentier » — un terme académique pour dire qu’on tourne en rond. Résultat : les tests se concentrent à 92% sur la programmation, laissant de côté… 92% du marché du travail américain. Oui, t’as bien lu. On teste les IA sur des trucs qui représentent 8% des jobs, et on ignore tout le reste. C’est comme si tu préparais un marathon en ne faisant que du curling.

Pourquoi cette obsession pour le code ? Parce que c’est facile à mesurer, ça fait bien dans les papiers, et ça permet aux labos de se comparer entre eux sans sortir de leur zone de confort. OpenAI, Anthropic, Google — tous jouent à ce jeu. Ils publient des benchmarks où leurs modèles écrivent du Python ou corrigent des bugs, et hop, un communiqué de presse annonce une « avancée majeure vers l’automatisation générale ». Mais demande-leur de tester un agent qui gère une réservation client, rédige un rapport juridique ou coordonne une équipe sur le terrain, et là, c’est le silence radio. Parce que c’est compliqué, bordel. Et que ça risquerait de montrer que leurs jouets sont encore très loin de tenir leurs promesses.

Le problème, c’est que cette path dependency n’est pas qu’un détail technique. Elle oriente toute la R&D vers des niches, pendant que les vrais besoins — santé, éducation, services — restent les parents pauvres de l’innovation. Les startups lèvent des millions sur la base de démos en code, les investisseurs suivent comme des moutons, et au final, on se retrouve avec une armée d’agents qui savent pondre du JavaScript mais qui sont incapables de gérer un planning de chantier. Le grand écart entre le hype et la réalité devient carrément risible.

Et pendant ce temps, les géants du secteur continuent leur petite danse. Sam Altman parle d’agents qui « révolutionnent l’économie », Dario Amodei publie des essais sur les risques existentiels, mais leurs modèles, eux, restent coincés dans des boucles de code. Même Meta, avec son open-washing, ne propose que des benchmarks techniques. Personne n’a intérêt à briser ce cercle vicieux, parce que les chiffres de performance sur le code, ça fait monter les valorisations. La vérité, c’est que l’IA agentielle, aujourd’hui, c’est un jouet pour développeurs, pas un outil pour le monde réel.

92% du marché du travail attend toujours son heure. Et en attendant, nos agents préférés continueront à générer des fonctions récursives pendant qu’on leur demande de planifier une réunion. L’ironie est magnifique, mais le gâchis de potentiel, lui, est tragique.


Sources :

Categories

Comments are closed

Latest Comments

Aucun commentaire à afficher.