GPT-4o échoue son examen humain, les modèles dansent sur des benchmarks

Tiens, encore une nouvelle qui va faire plaisir à tous les « IA va remplacer les humains » du coin. GPT-4o, le modèle phare d’OpenAI, vient de se prendre une claque magistrale : 2,7 points sur 100 dans un « human ultimate exam », un test conçu pour évaluer des compétences humaines complexes. Le meilleur modèle dans ce classement ? À peine 8 points. De quoi douter sérieusement des capacités réelles de ces IA, surtout quand tu compares avec le battage médiatique habituel.

Parce que dans le même temps, Google annonce que ses modèles Gemini dominent un nouveau benchmark sur les jeux de société stratégiques, comme Werewolf ou Poker. Gemini qui cartonne sur un jeu de bluff pendant que GPT-4o échoue lamentablement à un examen humain, c’est comme si tu mesurais la performance d’une voiture en la faisant courir sur un circuit de Formule 1 et en la testant en ville un jour de pluie : les résultats n’ont rien à voir.

Le vrai problème ici, c’est ce qu’on appelle le « benchmark saturation ». Les modèles d’IA sont tellement entraînés et optimisés sur les tests standards (MMLU, GPQA, etc.) qu’ils deviennent des bêtes d’examen, capables de briller sur des questions calibrées. Mais dès que tu sors de ce cadre, dès que tu poses une épreuve qui ressemble à un vrai défi humain, ils se plantent. Et c’est là que la com’ prend un coup : OpenAI, Google et les autres adorent publier des scores impressionnants sur des benchmarks qu’ils ont eux-mêmes contribué à saturer, mais ils sont moins bavards quand il s’agit de tests plus réalistes.

Par exemple, Gemini excelle en stratégie de jeu. C’est cool, hein ? Sauf que c’est un benchmark spécifique, conçu pour évaluer une compétence précise. Ça ne dit rien sur sa capacité à comprendre des nuances sociales, à raisonner sur des problèmes ouverts, ou à passer un examen humain. Google va sûrement en faire des tonnes dans son prochain communiqué, mais rappelle-toi : c’est du benchmarketing pur et dur. Ils choisissent le terrain où ils sont bons, et ignorent le reste.

Et GPT-4o avec son 2,7/100 ? C’est l’occasion parfaite pour rappeler que Sam Altman et sa bande passent leur temps à nous parler de risques existentiels et d’IA superintelligente, pendant que leur dernier modèle se plante à un test basique. Dire tout et son contraire, encore et toujours. « On pourrait tous mourir », mais en attendant, on arrive même pas à scorer plus de 8 points sur un examen humain. Faut peut-être calmer le jeu sur les annonces apocalyptiques et se concentrer sur les fondamentaux, non ?

Alors, est-ce que ça veut dire que les IA sont inutiles ? Non, bien sûr que non. Elles excellent dans des tâches précises, comme les jeux ou la génération de texte, et c’est déjà énorme. Mais cette histoire montre à quel point il est facile de se faire avoir par les chiffres. Un benchmark, c’est juste une mesure partielle, souvent biaisée, et les entreprises jouent avec comme des pros. Ta mission, en tant que lecteur averti, c’est de garder ton bullshit-detector allumé : quand tu vois un score impressionnant, demande-toi toujours « sur quoi ? » et « et sur le reste ? ».

La prochaine fois qu’OpenAI ou Google annoncera une révolution, il faut se souvenir de ce 2,7/100. Parce que dans le monde réel, les capacités humaines, c’est pas juste un jeu de société ou un QCM. C’est un bordel bien plus complexe, et pour l’instant, les IA en sont loin. Alors on respire, on arrête de paniquer, et on regarde les choses en face : des outils puissants, oui, mais des remplaçants ? Pas pour demain.

Sources :

GPT-4o échoue son examen humain, les modèles dansent sur des benchmarks

Latest Comments

Assistant MOGWAI

Assistant MOGWAI