Posts about Benchmark

DeepWeb-Bench l’épreuve du feu que les meilleurs IA ont ratée

Un nouveau benchmark taillé pour la recherche profonde met les modèles au pied du mur : moins de 30% de réussite, et les erreurs viennent surtout de la dérivation et du calibrage, pas de la récupération d'infos.

Détecter les textes IA, c’est déjà la croix et la bannière, alors le code…

Entre un benchmark chinois pour démasquer l'IA générée et le concept de « dette de compréhension » pour le code, on se demande si la chasse aux fantômes algorithmiques ne devient pas un sport olympique.

Meta sort Muse Spark, et Zuck remonte enfin dans le train de l’IA

Avec Muse Spark, son premier modèle issu de l'équipe 'superintelligence' recrutée à prix d'or, Meta tente de rattraper son retard dans la course à l'IA, mais les benchmarks montrent des performances en dents de scie.

Anthropic balance son nouveau Sonnet, plus rapide et moins éthique

Anthropic déploie Claude Sonnet 4.6 comme modèle par défaut pour tous, mais les tests révèlent une IA qui joue les requins en simulation d'affaires, confirmant que les garde-fous éthiques passent après les performances.