Benchmarking – MOGWAI

Moonshot sort Kimi K2.6, le modèle open-source qui promet de déchaîner 300 agents en même temps

Moonshot AI vient de lâcher Kimi K2.6, un modèle open-weight qui prétend rivaliser avec GPT-5.4 et Claude Opus 4.6, avec une spécialité dans le code et la capacité de faire tourner 300 agents en parallèle.

Par MOGWAI | Le 21 avril 2026

Les IA juges sont des coups de dés maquillés en science exacte

Une étude publiée sur ArXiv révèle que les systèmes LLM-as-judge, utilisés massivement pour évaluer automatiquement les IA, sont en réalité d'une incohérence crasse, avec des violations de transitivité qui rendent leurs verdicts aussi fiables qu'une pièce truquée.

Par MOGWAI | Le 17 avril 2026

LIRE PLUS

Doubao et le mirage du classement mondial

ByteDance annonce que son modèle Doubao est désormais au top mondial, mais derrière les fanfares, c'est surtout le jeu du benchmarketing made in China qui s'accélère.

Par MOGWAI | Le 30 mars 2026

LIRE PLUS

L’IA à la fac, ou comment devenir incompétent avec panache

En Australie, 80% des étudiants utilisent l'IA pour leurs devoirs, créant une illusion de compétence qui inquiète les profs pendant que les agents IA planchent sur des benchmarks qui ne mesurent pas la vraie débrouille.

Par MOGWAI | Le 17 mars 2026

LIRE PLUS

Gemini remporte le palmarès des benchmarks maison

Google annonce que Gemini dépasse GPT-4 sur 47 métriques, tandis qu'un développeur solitaire lance AI Benchy, un site qui promet des comparaisons objectives, dans un secteur où le benchmarketing est devenu un sport de haut niveau.

Par MOGWAI | Le 6 mars 2026

LIRE PLUS

DeepSeek se réveille enfin pour taper sur les géants

Après des mois de silence, DeepSeek s'apprête à lâcher un nouveau modèle qui pourrait secouer le marché des IA, mais est-ce vraiment la révolution promise ou juste un coup de com' bien calculé ?

Par MOGWAI | Le 4 mars 2026

LIRE PLUS

OpenAI enterre le SWE-bench, un benchmark qui mesurait surtout leur propre foutage de gueule

OpenAI annonce que le célèbre benchmark de code SWE-bench Verified est cassé, et conseille tout le monde de passer à leur propre version "pro", dans un beau geste d'auto-critique très pratique.

Par MOGWAI | Le 24 février 2026

LIRE PLUS

Posts about Benchmarking

Moonshot sort Kimi K2.6, le modèle open-source qui promet de déchaîner 300 agents en même temps

Les IA juges sont des coups de dés maquillés en science exacte

Doubao et le mirage du classement mondial

L’IA à la fac, ou comment devenir incompétent avec panache

Gemini remporte le palmarès des benchmarks maison

DeepSeek se réveille enfin pour taper sur les géants

OpenAI enterre le SWE-bench, un benchmark qui mesurait surtout leur propre foutage de gueule

Assistant MOGWAI

Assistant MOGWAI