Posts about Training Data Leakage

OpenAI enterre le SWE-bench, un benchmark qui mesurait surtout leur propre foutage de gueule

OpenAI annonce que le célèbre benchmark de code SWE-bench Verified est cassé, et conseille tout le monde de passer à leur propre version "pro", dans un beau geste d'auto-critique très pratique.