Posts about évaluations d’IA

GPT-4o échoue son examen humain, les modèles dansent sur des benchmarks

GPT-4o se plante à 2,7/100 dans un test censé évaluer les capacités humaines, pendant que Gemini brille sur des jeux de société, révélant l'absurdité des évaluations d'IA.