Bon, alors voilà l’histoire. Tu sais, ces benchmarks de code où tout le monde se tape dessus pour savoir qui a la plus grosse ? Eh bien, OpenAI vient de jeter le sien à la poubelle. Enfin, pas le sien à eux, mais celui que tout le monde utilisait depuis des mois : le SWE-bench Verified. La raison ? Il serait « de plus en plus contaminé » et ne mesurerait pas vraiment les progrès en codage. Traduction : les modèles ont probablement mémorisé les réponses, et les tests sont tellement foireux qu’ils rejettent même les bonnes solutions. Un peu comme si tu passais un examen où le prof te colle zéro parce que ta réponse est correcte mais pas dans le format exact qu’il avait en tête à 3h du mat’.
Je te vois venir : « Oh, ils font preuve de transparence, c’est bien ». Mouais. Sauf que regarde la suite. Dans le même souffle, OpenAI « recommande SWE-bench Pro ». Ah, tiens donc. Leur propre version. Celle qui, évidemment, n’a pas les mêmes problèmes (pour l’instant). C’est un peu comme si un dealer te disait : « Écoute, cette came, elle est coupée avec de la merde, arrête d’en prendre. Mais par contre, j’ai ce nouveau produit, il est clean, promis. » Dire tout et son contraire, c’est leur marque de fabrique.
Pendant des mois, tout le monde s’est battu sur ce benchmark. Anthropic, Google, Meta, même des startups random. Des scores publiés, des communiqués triomphants, des levées de fonds justifiées par « on dépasse GPT-4 sur SWE-bench ». Et maintenant, OpenAI sort le tapis. « Désolé les gars, le jeu était truqué. Mais bon, on a un nouveau jeu, si vous voulez. » C’est du benchmarketing à son paroxysme : tu définis les règles, tu te déclares vainqueur, et quand ça commence à sentir mauvais, tu changes les règles.
Et le pire, c’est que leur analyse a probablement raison. Les fuites de données d’entraînement, c’est le cancer secret de l’IA. Les modèles gobent des terabytes de code GitHub, et après, on s’étonne qu’ils connaissent les réponses. Mais fallait le dire avant, non ? Quand tout le monde se gargarisait de leurs scores ? Là, c’est un peu tard. Le mal est fait.
Score d’impact : je donne un 7/10. Parce que oui, ça remet en question des mois de compétition bidon, et ça montre à quel point ce secteur adore ses propres miroirs déformants. Mais en vrai, c’est juste un épisode de plus dans la série « Comment éviter de se faire prendre la main dans le sac ». La prochaine fois, ils sortiront SWE-bench Ultra, et le cycle recommencera. Parce qu’au fond, ce qui compte, c’est pas de mesurer correctement, c’est de garder le contrôle du thermomètre.
Sources :
Comments are closed