© 2026 MOGWAI
Un nouveau benchmark taillé pour la recherche profonde met les modèles au pied du mur : moins de 30% de réussite, et les erreurs viennent surtout de la dérivation et du calibrage, pas de la récupération d'infos.