Une étude publiée sur ArXiv révèle que les systèmes LLM-as-judge, utilisés massivement pour évaluer automatiquement les IA, sont en réalité d'une incohérence crasse, avec des violations de transitivité qui rendent leurs verdicts aussi fiables qu'une pièce truquée.
Une étude révèle que les réponses IA de Google sont correctes neuf fois sur dix, mais avec un volume de recherche astronomique, ces 10% d'erreur génèrent des millions de fausses infos par heure.
Les outils d'IA pour prédire les devises et les essais cliniques ont le vent en poupe, mais entre la théorie des benchmarks et la réalité du terrain, c'est souvent le grand écart.
Wikipedia interdit officiellement l'utilisation des grands modèles de langage pour générer ou réécrire des articles, une décolution saluée par les contributeurs qui préfèrent la rigueur humaine au bullshit algorithmique.
Anthropic, le champion de la sécurité existentielle, a du mal à maintenir son service en ligne ce lundi, laissant les utilisateurs dans le noir pendant des heures.
Les entreprises découvrent que les projets d'agents IA échouent moins à cause de la technologie que parce qu'ils reproduisent les erreurs de gouvernance des mainframes.
Les agents IA, censés automatiser nos vies, se révèlent être des gouffres financiers et techniques, avec des coûts d'exécution qui explosent et une fiabilité en berne.