Tu te souviens de DeepWeb-Bench, ce benchmark dont je t’avais parlé il y a quelques jours ? Celui qui mettait les modèles au tapis ? Ben voilà, les résultats sont tombés, et c’est pas beau à voir.
Des chercheurs chinois viennent de balancer un papier qui tue le game des benchmarks de recherche profonde. Le nom, c’est DeepWeb-Bench. Le pitch : un test tellement hardcore que les meilleurs modèles du moment plafonnent à des scores pathétiques. On parle de 24 à 30% de réussite sur certaines familles de tâches. L’IA qui te sort des dissertations sur la guerre de Cent Ans en trois secondes se viande lamentablement quand il faut collecter des preuves sur 20 sources, les recouper et en tirer une conclusion en plusieurs étapes.
L’étude décortique les résultats de neuf modèles de pointe (OpenAI et Anthropic sont dans le lot) et le constat est implacable. L’équipe a classé les erreurs en quatre familles : récupération d’info, dérivation (la capacité à enchaîner les étapes de raisonnement), raisonnement pur, et calibrage (évaluer si une info est suffisamment fiable). Résultat : la récupération ne représente que 12-14% des échecs. Le vrai problème, c’est ce qui vient après. Plus de 70% des erreurs viennent de la dérivation et du calibrage. Autrement dit, les modèles trouvent l’info, mais ils sont incapables de l’assembler correctement ou de juger de sa fiabilité.
Le plus intéressant, c’est que les modèles forts et faibles échouent différemment. Les forts ont tendance à produire des raisonnements incomplets, comme s’ils s’arrêtaient à mi-chemin. Les faibles, eux, hallucinent avec une précision confiante, inventant des détails qui semblent vrais. Et cerise sur le gâteau : les modèles montrent une vraie spécialisation par domaine. La corrélation entre leurs performances n’est que de 0,61, avec des écarts allant jusqu’à 18,8 points de pourcentage sur une même question. Un modèle qui cartonne en histoire peut se planter lamentablement en physique, et vice versa.
En parallèle, un autre benchmark débarque : WikiVQABench. Lui, il s’attaque à la question-réponse visuelle avec un twist : il faut des connaissances externes pour répondre, pas juste regarder l’image. Les 15 modèles testés (de 256 millions à 90 milliards de paramètres) affichent un score entre 24,7% et 75,6%. Ça discrimine bien, mais ça reste un test plus… traditionnel. Là où DeepWeb-Bench est un véritable casse-tête en plusieurs actes, WikiVQABench, c’est plutôt un QCM un peu balèze.
Mais le vrai message, c’est celui de DeepWeb-Bench : on a atteint un plateau où les modèles savent chercher, mais pas encore penser. La recherche profonde, celle qui exige de tisser des liens entre des sources contradictoires sur des sujets pointus, c’est pas pour demain. Les promesses des agents de recherche qui feraient le boulot d’un analyste, pour l’instant c’est du pipeau. Comme le dit le vieil adage que personne n’a jamais dit : « Un modèle qui trouve tout mais ne comprend rien, c’est juste un moteur de recherche avec un syndrome de la page blanche. »
Sources :
Comments are closed