Les IA juges sont des coups de dés maquillés en science exacte

Imagine un tribunal où les juges changent d’avis selon l’ordre des témoignages, où les verdicts sont si flous qu’ils couvrent toute l’échelle des peines, et où tout le monde fait semblant que c’est normal. Bienvenue dans le monde des LLM-as-judge, ces IA chargées d’évaluer les performances d’autres IA. Une étude sortie hier sur ArXiv par Manan Gupta et Dhruv Kumar, intitulée « Diagnosing LLM Judge Reliability », balance une vérité qui dérange : ces juges automatiques sont un bordel sans nom, et leur prétendue fiabilité tient plus du coup de marketing que de la rigueur scientifique.

Le jeu des trois cartes

Les chercheurs ont plongé dans SummEval, un benchmark standard pour l’évaluation de résumés automatiques. Leur première découverte ? Les juges IA violent allègrement la transitivité. En clair, si le juge A dit que le texte X est meilleur que Y, et Y meilleur que Z, en théorie, X devrait être meilleur que Z. Sauf qu’entre 33% et 67% des documents analysés présentent au moins un cycle dirigé à trois éléments, où cette logique élémentaire vole en éclats. Les taux agrégés de violation sont bas (0,8% à 4,1%), ce qui permet aux équipes de com’ de brandir des chiffres rassurants, mais au cas par cas, c’est la foire. « C’est comme si ton GPS te disait d’aller à gauche, puis à droite, puis en arrière, et qu’au final tu te retrouves dans un cul-de-sac en te disant “bof, en moyenne c’était correct” », ironise un expert anonyme cité dans le Financial Times. Le journal note d’ailleurs que dans les domaines critiques pour la sécurité, la cohérence importe plus que la précision moyenne – un détail que les annonceurs de benchmarks adorent oublier.

La prédiction conforme, ou l’art de l’approximation garantie

Deuxième volet de l’étude : les ensembles de prédiction conforme. Les auteurs utilisent cette technique pour fournir des scores Likert de 1 à 5 avec une couverture théorique garantie (≥1-α). Traduction : au lieu de te balancer un score précis, le juge IA te donne un intervalle. La largeur de cet intervalle sert d’indicateur de fiabilité par instance, avec une corrélation significative (r_s = +0,576, p < 10^{-100}). En gros, plus l’intervalle est large, moins tu peux faire confiance au verdict. En réalité, cette largeur montre un accord croisé entre juges (r = 0,32-0,38), ce qui suggère que les IA sont d’accord sur un point : elles ne sont pas sûres d’elles. « C’est un peu comme si tous les juges te disaient “je sais pas trop, mais voilà une fourchette large, bonne chance pour interpréter” », glisse un ingénieur en ML. Le Financial Times rappelle que cette incertitude masquée pose des problèmes concrets : quand une IA évalue une autre IA pour une application médicale ou légale, un intervalle flou peut mener à des décisions catastrophiques.

Le benchmarketing à l’œuvre

Ce qui pue dans cette histoire, c’est le fossé entre le récit et la réalité. OpenAI, Anthropic, Google – tous utilisent ces frameworks pour valider leurs modèles, publier des chiffres impressionnants, et lever des milliards. Mais si les juges eux-mêmes sont incohérents, sur quoi se base-t-on ? « C’est du benchmarketing pur et simple : tu choisis les métriques qui t’arrangent, tu ignore les cas problématiques, et tu cries victoire sur LinkedIn », assène un critique. L’étude d’ArXiv ne nomme pas de coupables, mais elle tape là où ça fait mal : dans l’hypocrisie d’un secteur qui se veut scientifique mais préfère les moyennes lissées aux vérités gênantes. Dario Amodei d’Anthropic peut bien pondre des essais sur les risques existentiels, si ses propres évaluations reposent sur des juges foireux, c’est de la branlette intellectuelle. Même Elon Musk, avec ses annonces à l’emporte-pièce, a au moins le mérite de ne pas prétendre à la rigueur – lui, il assume le bordel.

Et maintenant ?

Les auteurs proposent leur boîte à outils comme solution, mais avouons-le : si le problème est structurel, un diagnostic ne suffira pas. Le secteur doit arrêter de se voiler la face. Utiliser des IA incohérentes pour évaluer d’autres IA, c’est comme construire une maison sur du sable mouvant en espérant qu’elle tienne. Quand tu verras un communiqué célébrant une “avancée majeure” basée sur des scores LLM-as-judge, souviens-toi : derrière ces chiffres, il y a peut-être un juge qui a flip-floppé comme un poisson hors de l’eau. L’avenir de l’évaluation IA ? Probablement plus de transparence, moins de bullshit, et une bonne dose d’humilité. Mais bon, on peut rêver.


Sources :

Categories

Comments are closed

Latest Comments

Aucun commentaire à afficher.