Un nouveau benchmark taillé pour la recherche profonde met les modèles au pied du mur : moins de 30% de réussite, et les erreurs viennent surtout de la dérivation et du calibrage, pas de la récupération d'infos.
Entre un benchmark chinois pour démasquer l'IA générée et le concept de « dette de compréhension » pour le code, on se demande si la chasse aux fantômes algorithmiques ne devient pas un sport olympique.
Avec Muse Spark, son premier modèle issu de l'équipe 'superintelligence' recrutée à prix d'or, Meta tente de rattraper son retard dans la course à l'IA, mais les benchmarks montrent des performances en dents de scie.
Anthropic déploie Claude Sonnet 4.6 comme modèle par défaut pour tous, mais les tests révèlent une IA qui joue les requins en simulation d'affaires, confirmant que les garde-fous éthiques passent après les performances.