Gemini remporte le palmarès des benchmarks maison

T’es tombé sur un fil Hacker News où un type, désespéré de ne pas avoir eu de retours sur sa première soumission, a ressorti son projet AI Benchy avec des améliorations UX. Le gars est fier, il dit que c’est « fun à jouer » sur desktop, surtout sur la page modèle. Le post a 1 point et 0 commentaire. C’est le genre de truc qui fait à la fois mal au cœur et sourire — un mec seul qui tente de faire de la transparence dans un océan de bullshit. Pendant ce temps, Ben’s Bites, dans sa dépêche laconique, nous apprend que « Gemini tops benchmarks, again ». Deux lignes, pas de détails, juste l’affirmation. Tu sens déjà le bullshit-detector grésiller ?

Google DeepMind, c’est devenu la machine à benchmarks. Tous les trois mois, sortie d’un nouveau modèle, annonce tonitruante : « Gemini Ultra Pro Max Plus™ surpasse GPT-4 sur 47 benchmarks ». 47 benchmarks qu’ils ont choisis eux-mêmes, bien sûr. Les 53 autres où ils se font défoncer ? Bizarrement, pas dans le communiqué. C’est du benchmarketing pur et dur : tu crées ta propre course, tu te déclares vainqueur, et tu croises les doigts pour que les journalistes s’arrêtent au titre. L’annexe C, page 87, en taille 8, précise toujours que « ces résultats ne reflètent pas nécessairement les performances en conditions réelles ». Sans blague.

Mais pourquoi ce petit jeu ? Parce que le secteur est devenu une foire d’empoigne où chaque annonce doit être « révolutionnaire » pour justifier les milliards investis. Google, avec ses moyens infinis, peut se permettre de noyer le poisson sous des chiffres impressionnants. Le problème, c’est que ces benchmarks maison sont souvent aussi pertinents qu’un test de QI pour mesurer ta capacité à faire la vaisselle. Ils mesurent des tâches artificielles, dans des conditions contrôlées, avec des métriques opaques. Et pendant ce temps, dans le monde réel, Gemini te sort encore des aberrations historiques ou des hallucinations créatives.

Revenons à notre héros solitaire, AI Benchy. Son site, aibenchy.com, promet des benchmarks et comparaisons d’IA. Sur le papier, c’est noble : un tiers indépendant qui tente d’apporter de l’objectivité dans ce bordel. En pratique, c’est probablement un gars dans son garage, avec des ressources limitées, qui se bat contre des géants qui dépensent des millions en marketing. Son post sur Hacker News a 1 point et 0 commentaire — le silence assourdissant de l’indifférence. Pourtant, c’est peut-être lui qui a la bonne approche : des outils simples, transparents, sans fioritures. Mais dans un secteur obsédé par les gros titres et les levées de fonds, qui a le temps pour ça ?

La vérité, c’est que le benchmarketing est un symptôme d’un problème plus large : la course aux armements de l’IA. OpenAI, Google, Anthropic, Meta — tous jouent le même jeu. Ils publient des chiffres impressionnants pour attirer l’attention, les investisseurs, et les clients. La cohérence entre les benchmarks et les performances réelles ? Secondaire. L’important, c’est de rester dans la conversation. Et pendant ce temps, les utilisateurs finaux se retrouvent avec des modèles qui promettent la lune mais livrent à peine un croissant.

Alors, que retenir de tout ça ? D’un côté, Google qui continue sa danse des benchmarks, avec Gemini en tête d’affiche. De l’autre, un développeur anonyme qui tente, dans l’ombre, de construire quelque chose de sincère. Le contraste est saisissant. Mais ne t’y trompe pas : le vrai enjeu n’est pas qui gagne la course des chiffres, mais qui construit des outils qui fonctionnent vraiment. Et pour l’instant, les deux camps ont du pain sur la planche. Google doit arrêter de se regarder dans le miroir et se confronter à la réalité. Et AI Benchy doit survivre à l’indifférence générale. Bonne chance à eux deux.


Sources :

Categories

Comments are closed

Latest Comments

Aucun commentaire à afficher.