Les benchmarks IA sont-ils une arnaque ? La science sort ses griffes

Tu t’es jamais demandé pourquoi ton modèle IA qui cartonne sur les benchmarks se plante lamentablement dès que tu lui demandes un truc un peu tordu ? En vrai, c’est pas toi, c’est les benchmarks qui sont pourris. Et ce matin, la science a décidé de sortir les couteaux. Deux études fraîchement débarquées viennent de foutre en l’air une bonne partie de la crédibilité des évaluations standards, et si t’as suivi l’actu IA ces derniers mois, ça fait mal.

Source #38 : L’illusion de consensus, ou comment les LLMs jouent aux experts sans rien comprendre

Mingyang Song et ses potes ont pris 32 modèles, trois juges « frontier » (genre GPT-4, Claude Opus, ce genre de monstres), et leur ont fait évaluer 100 tâches différentes. 105 600 instances d’évaluation plus tard, ils sortent une conclusion qui devrait faire rougir tous les marketeux du secteur : l’accord entre modèles, c’est souvent du flan. Ils appellent ça l’« Evaluation Illusion » — un phénomène où les LLMs pondent des critiques sophistiquées, genre « la syntaxe est élégante mais manque de profondeur sémantique », mais au final, ils se basent sur des heuristiques de surface (des patterns visibles, des mots-clés) plutôt que sur la qualité réelle du contenu.

En chiffres : l’accord au niveau modèle est impressionnant (Spearman ρ=0.99), mais au niveau échantillon, ça se casse la gueule (Pearson r̄=0.72, ICC=0.67). Traduction : les modèles s’accordent pour dire que tel texte est « bon » ou « mauvais » en gros, mais quand tu regardes les détails, ils sont pas d’accord du tout sur pourquoi. C’est comme si un jury de cuisine donnait tous 3 étoiles à un plat, mais l’un dit « la cuisson est parfaite », l’autre « les épices sont équilibrées », et le troisième « la présentation est jolie » — sauf que le plat, en vrai, c’est un sandwich au jambon. L’accord est une façade.

Source #145 : Le code IA, champion des benchmarks, looser en prod

Pendant ce temps, METR (les anciens d’Anthropic, ceux qui font du safety mais avec des vrais chiffres) ont sorti une étude sur SWE-bench, le benchmark populaire pour évaluer la génération de code par IA. Leur découverte ? La moitié du code généré par IA qui passe le test serait rejeté par des mainteneurs de projets réels. Tu imagines ? Tu fais confiance à un benchmark pour recruter un dev IA, et il te livre du code que ton lead tech jette à la poubelle en deux secondes.

SWE-bench, c’est censé simuler des tâches de développement réelles — corriger des bugs, implémenter des features. Mais apparemment, il rate plein de trucs : le code peut être techniquement correct mais inélégant, mal documenté, ou simplement pas dans l’esprit du projet. Les mainteneurs humains, eux, voient ces défauts instantanément. Les benchmarks, non.

Pourquoi c’est important ? Parce que tout le secteur tourne autour de ces évaluations foireuses.

Google annonce que Gemini bat GPT-4 sur 47 benchmarks. OpenAI sort un tableau de scores pour montrer qu’OpenAI a gagné. Anthropic publie des évaluations de sécurité qui disent « notre modèle est safe » alors que leurs propres testeurs crient au loup. Tout ça, c’est du benchmarketing — et ces études montrent que c’est souvent de la poudre aux yeux.

Les implications sont énormes :

Pour la recherche : Si tu bases tes avancées sur des benchmarks cassés, tu optimises pour des métriques qui ne reflètent pas la réalité. Tu peux créer un modèle génial sur papier qui est inutilisable en pratique.
Pour l’industrie : Les boîtes qui achètent des modèles basés sur ces scores se font avoir. Tu payes pour une Ferrari qui fait du bruit mais a les pneus plats.
Pour les utilisateurs : Toi, qui compte sur l’IA pour coder, écrire, ou analyser, tu te retrouves avec des outils qui surpromettent et sous-livrent.

Et après ?

Ces études ne sont pas les premières à critiquer les benchmarks — rappelle-toi, il y a eu des débats sur GLUE, SuperGLUE, et autres — mais elles frappent fort parce qu’elles ciblent directement le cœur du problème : l’évaluation par LLM elle-même (source #38) et son application dans un domaine critique, le code (source #145).

La solution ? Les auteurs de l’étude #38 proposent de passer à des évaluations « knowledge-grounded » — basées sur des connaissances réelles plutôt que sur des heuristiques de surface. METR, de son côté, suggère probablement d’intégrer plus de feedback humain dans les benchmarks. En clair : arrêter de faire confiance aux machines pour évaluer les machines, et remettre les humains dans la boucle.

Mais bon, entre nous, est-ce que le secteur va écouter ? OpenAI, Google, Anthropic, ils ont tous intérêt à maintenir l’illusion — ça fait vendre, ça fait lever des fonds, ça fait monter les valorisations. Publier un papier sur ArXiv, c’est bien. Changer ses pratiques, c’est autre chose.

En attendant, la prochaine fois qu’on te vendra un communiqué annonçant « Notre modèle surpasse la concurrence sur tous les benchmarks », souviens-toi : l’accord est peut-être juste une illusion, et le code qui passe le test, un futur ticket de bug.

Sources :

Les benchmarks IA sont-ils une arnaque ? La science sort ses griffes

Latest Comments

Assistant MOGWAI

Assistant MOGWAI