Moonshot AI vient de lâcher Kimi K2.6, un modèle open-weight qui prétend rivaliser avec GPT-5.4 et Claude Opus 4.6, avec une spécialité dans le code et la capacité de faire tourner 300 agents en parallèle.
Une étude publiée sur ArXiv révèle que les systèmes LLM-as-judge, utilisés massivement pour évaluer automatiquement les IA, sont en réalité d'une incohérence crasse, avec des violations de transitivité qui rendent leurs verdicts aussi fiables qu'une pièce truquée.
ByteDance annonce que son modèle Doubao est désormais au top mondial, mais derrière les fanfares, c'est surtout le jeu du benchmarketing made in China qui s'accélère.
En Australie, 80% des étudiants utilisent l'IA pour leurs devoirs, créant une illusion de compétence qui inquiète les profs pendant que les agents IA planchent sur des benchmarks qui ne mesurent pas la vraie débrouille.
Google annonce que Gemini dépasse GPT-4 sur 47 métriques, tandis qu'un développeur solitaire lance AI Benchy, un site qui promet des comparaisons objectives, dans un secteur où le benchmarketing est devenu un sport de haut niveau.
Après des mois de silence, DeepSeek s'apprête à lâcher un nouveau modèle qui pourrait secouer le marché des IA, mais est-ce vraiment la révolution promise ou juste un coup de com' bien calculé ?
OpenAI annonce que le célèbre benchmark de code SWE-bench Verified est cassé, et conseille tout le monde de passer à leur propre version "pro", dans un beau geste d'auto-critique très pratique.