Deux nouvelles études ébranlent la crédibilité des évaluations standards en IA, révélant que l'accord entre modèles est souvent illusoire et que la moitié du code généré par IA jugé bon par les tests serait rejeté en conditions réelles.
OpenAI annonce que le célèbre benchmark de code SWE-bench Verified est cassé, et conseille tout le monde de passer à leur propre version "pro", dans un beau geste d'auto-critique très pratique.