Posts about benchmarketing

Le robot qui a fait la course, et pas qu’aux humains

Un humanoïde chinois vient de battre tous les humains sur un semi-marathon, et si le buzz est énorme, le vrai défi, c'était surtout de garder ses robots debout jusqu'à la ligne d'arrivée.

Cal ferme son code, l’open source en prend un coup

Cal, une boîte qui faisait de l'open source son étendard, vient de basculer en propriétaire, invoquant les risques de piratage IA comme si on leur avait volé les clés du coffre.

Google lance encore un modèle TTS et veut qu’on croie que c’est une révolution

Gemini 3.1 Flash TTS est sorti, avec plus de 70 langues et des tags audio, mais on se demande si c'est vraiment si nouveau ou juste un habillage marketing.

Les IA, ces communicantes fantômes qui n’écoutent rien

Alors que des entreprises embauchent des porte-paroles IA fictives pour leur communication, on découvre que ces modèles sont incapables de comprendre les nuances humaines qu'ils prétendent maîtriser.

Google Gemini génère enfin des visualisations interactives, mais tu vas encore devoir lui tenir la main

Google annonce que Gemini peut désormais créer des modèles 3D et simulations interactives dans le chat, une fonctionnalité qui suit de peu celle de Claude, sans pour autant révolutionner la compréhension du monde réel.

Les AI Overview de Google font juste 10% d’erreurs, tranquille

Une étude révèle que les réponses IA de Google sont correctes neuf fois sur dix, mais avec un volume de recherche astronomique, ces 10% d'erreur génèrent des millions de fausses infos par heure.

Claude Code, le modèle qui bouffe tes tokens plus vite que ton café du matin

Anthropic révèle que les utilisateurs de Claude Code se plaignent de quotas explosés en un rien de temps, avec des explications techniques qui sentent la rhétorique corporate.

Les promesses de l’IA dans les marchés et la santé, ou comment se faire des illusions avec des courbes

Les outils d'IA pour prédire les devises et les essais cliniques ont le vent en poupe, mais entre la théorie des benchmarks et la réalité du terrain, c'est souvent le grand écart.

L’IA prédit la pluie mais pas le bullshit de l’écosystème tech

Pendant qu'Amazon vend du SageMaker pour traquer les éruptions solaires, les chercheurs utilisent l'IA pour comprendre les flux d'eau dans les Prairies — deux réalités qui montrent à quel point le secteur est à la fois utile et hypocrite.

Gemini Flash Live, ou l’art du recyclage pour faire croire à l’innovation

Google ressort ses vieux modèles audio en les rebaptisant 'Flash Live', un coup de marketing pour masquer l'absence de vraie percée technique.

Google rallonge la corde de Lyria, mais la musique reste en sourdine

Lyria 3 Pro promet enfin des morceaux de trois minutes, mais le concert n'est pas encore pour tout de suite.

Alibaba DAMO frappe fort avec le Xuantie C950, mais on parle de quoi vraiment ?

Alibaba DAMO Academy dévoile le Xuantie C950, un processeur RISC-V qui bat des records de performance et vise l'IA, mais derrière les chiffres impressionnants, le diable se cache dans les détails.

GPT-5.4 mini et nano, la nouvelle lubie d’OpenAI

OpenAI annonce des versions réduites de GPT-5.4, mais le vrai problème reste leurs promesses trop belles pour être vraies.

Musk réorganise xAI comme on change les pneus d’une voiture en pleine course

Elon Musk avoue enfin que xAI était mal fichu dès le départ et lance une restructuration complète, pendant que des managers de Tesla et SpaceX viennent mettre de l'ordre dans le bordel.

Grok 4.20 ou comment Elon Musk transforme un défaut en argument de vente

xAI sort Grok 4.20, un modèle qui se vante d'être moins con que les autres sans être vraiment plus intelligent.

Claude trouve plus de bugs que Mozilla n’en veut bien dire

Anthropic affirme que Claude a déniché plus de 100 vulnérabilités dans Firefox, mais les chiffres officiels de Mozilla parlent seulement de 22, laissant planer le doute sur une com' un peu trop gonflée.

GPT-5.4, l’IA qui combine tout et promet de tout faire mieux (comme d’habitude)

OpenAI dégaine GPT-5.4, un modèle qui fusionne raisonnement, codage et usage de l'ordinateur, avec des gains d'efficacité et de performances sur les benchmarks.

GPT-5.4, la mouture qui te remplace au bureau mais oublie de te prévenir

OpenAI sort GPT-5.4, un modèle qui promet de faire ton taf mieux que toi, avec des chiffres qui sentent le benchmark maison et une capacité à utiliser ton ordi qui fait froid dans le dos.

Google lance Gemini 3.1 Flash-Lite, plus rapide et plus chère

Google dévoile Gemini 3.1 Flash-Lite, un modèle IA promettant rapidité et efficacité, mais la facture a triplé.

OpenAI joue au Monopoly avec nos impôts et nos données

OpenAI annonce un partenariat pour accélérer les permis fédéraux américains et agrandit son bureau londonien pour piquer les cerveaux de DeepMind, pendant que Sam Altman fait toujours du Sam Altman.