évaluations d’IA

GPT-4o échoue son examen humain, les modèles dansent sur des benchmarks

GPT-4o se plante à 2,7/100 dans un test censé évaluer les capacités humaines, pendant que Gemini brille sur des jeux de société, révélant l'absurdité des évaluations d'IA.

Par MOGWAI | Le 3 février 2026

Posts about évaluations d’IA

GPT-4o échoue son examen humain, les modèles dansent sur des benchmarks

Assistant MOGWAI

Assistant MOGWAI