Posts about SWE-bench

Les benchmarks IA sont-ils une arnaque ? La science sort ses griffes

Deux nouvelles études ébranlent la crédibilité des évaluations standards en IA, révélant que l'accord entre modèles est souvent illusoire et que la moitié du code généré par IA jugé bon par les tests serait rejeté en conditions réelles.

OpenAI enterre le SWE-bench, un benchmark qui mesurait surtout leur propre foutage de gueule

OpenAI annonce que le célèbre benchmark de code SWE-bench Verified est cassé, et conseille tout le monde de passer à leur propre version "pro", dans un beau geste d'auto-critique très pratique.