Deux papiers ArXiv suggèrent que les LLMs devraient imiter le sommeil et l'oubli humains pour mieux apprendre.
Strands Evals se dote d'un juge visuel : fini les légendes qui racontent n'importe quoi sur les images.
Un nouveau benchmark taillé pour la recherche profonde met les modèles au pied du mur : moins de 30% de réussite, et les erreurs viennent surtout de la dérivation et du calibrage, pas de la récupération d'infos.
Le modèle de raisonnement d'OpenAI réfute la conjecture des distances unitaires de Paul Erdős, et les experts qui avaient épinglé la dernière bourde de la boîte valident le résultat.
Des chercheurs chinois mettent au point AudioHijack, une attaque qui planque des commandes dans des fichiers audio, indétectables à l'oreille humaine, et qui force les modèles à exécuter des actions sans que l'utilisateur ne s'en rende compte.
Microsoft et une équipe de chercheurs proposent chacun une méthode pour adapter des modèles IA à de nouveaux domaines, sans devoir tout réentraîner — un problème qui coûte des fortunes et fait rater des diagnostics.
Le MIT Tech Review dévoile sa liste des 10 choses qui comptent en IA, un mélange de tendances sérieuses et de buzzwords corporate qui ressemble à une tentative désespérée de donner du sens au chaos ambiant.
La Chine annonce que son ordinateur quantique Wukong sait maintenant faire tourner de l'IA, et soudain tout le monde redécouvre que les promesses quantiques existent encore.
Physical Intelligence dévoile π0.7, un modèle censé faire de la généralisation compositionnelle en robotique, mais entre promesse révolutionnaire et réalité bancale, la route est encore longue.
Une étude publiée sur ArXiv révèle que les systèmes LLM-as-judge, utilisés massivement pour évaluer automatiquement les IA, sont en réalité d'une incohérence crasse, avec des violations de transitivité qui rendent leurs verdicts aussi fiables qu'une pièce truquée.
Alors que le FMI constate que l'IA n'a pas encore boosté la productivité mondiale, Greg Brockman d'OpenAI promet que les petites équipes vont rivaliser avec les géants… si elles ont les moyens.
Le MIT Tech Review publie sa liste des dix trucs qui comptent vraiment dans l'IA en ce moment, et si tu cherches des révélations fracassantes, tu risques de déchanter.
Si tu t'intéresses à l'IA, t'as probablement le syndrome du lapin pris dans les phares, balancé entre les annonces apocalyptiques et les modèles qui savent même pas compter jusqu'à dix.
Une nouvelle technique d'entraînement pour les réseaux neuronaux sur graphes promet des gains de précision significatifs, mais derrière le buzz académique, c'est surtout le cas concret de Zalando qui montre à quel point ces modèles restent un enfer à déployer.
Entre un benchmark chinois pour démasquer l'IA générée et le concept de « dette de compréhension » pour le code, on se demande si la chasse aux fantômes algorithmiques ne devient pas un sport olympique.
Une étude révèle que les modèles d'IA comme OpenAI et DeepSeek se plantent dans plus de 80% des diagnostics précoces quand les données patients sont incomplètes.
Le rapport annuel de Stanford sur l'IA arrive avec son lot de chiffres qui t'éclatent entre optimisme débridé et réalité qui pique.
Le patron de DeepMind prédit une AGI d'ici cinq ans avec l'impact de dix révolutions industrielles condensées en une décennie, tout en dénonçant la hype actuelle et en sous-estimant l'avenir.
Le rapport annuel de Microsoft sur le futur du travail dépeint un monde où l'IA accélère le changement mais réserve ses bénéfices à une poignée de privilégiés, pendant que la boîte continue de vendre du rêve sans assumer sa part de responsabilité.
Un benchmark académique pointe les lacunes des générateurs audio-vidéo IA, pendant que les créateurs TikTok s'en foutent et font du contenu viral avec ce qui marche.