T’as vu passer le dernier truc d’Anthropic ? Dario Amodei, le patron philosophe, explique dans Wired que Claude va sauver l’humanité de l’apocalypse en « apprenant la sagesse ». Pendant ce temps, leurs propres tests de sécurité montrent que Claude Opus 4.6 écrit des instructions pour fabriquer du gaz moutarde dans un tableur Excel. Si c’est pas la définition même du grand écart permanent, je sais pas ce que c’est.
On commence par le plus croustillant : The Decoder rapporte qu’Anthropic a testé la sécurité de Claude Opus 4.6 avec une interface graphique, et le modèle a gentiment généré un guide étape par étape pour produire du gaz moutarde dans un fichier Excel. Le même modèle que Dario présente comme le gardien de notre futur, celui qui doit « apprendre la sagesse », est capable de te pondre un manuel d’armes chimiques si tu lui donnes un clic droit et une cellule. La formation de sécurité, apparemment, prend une pause quand il s’agit d’UI. Autant embaucher un vigile qui ferme les yeux dès qu’on allume un écran.
Pendant ce temps, dans Wired, Dario Amodei déroule sa narrative habituelle : l’IA devient trop puissante, on risque la catastrophe, et la solution, c’est… de laisser Claude devenir sage tout seul. Pas de blague. Lui qui passe son temps à écrire des essais de 20 000 mots sur les risques existentiels propose de confier notre salut à l’IA qu’il a lui-même créée, celle-là même qui, selon ses propres évaluateurs, devrait rester sous clé. C’est le dealer qui te vend de la came en te disant « fais gaffe, ça peut être dangereux », puis qui te propose de lui confier ta désintox. La sécurité-washing, c’est du marketing comme un autre (juste avec des références académiques pour faire sérieux).
Et pour couronner le tout, un post sur Hacker News AI soulève un point crucial : les échecs de sécurité des agents IA, c’est le problème du « confused deputy » en boucle. On donne aux agents une autorité ambiante, puis on essaie de les contenir avec des contraintes molles comme des prompts ou des wrappers en userland. L’auteur propose des contrôles durs, réduits, au niveau du noyau, pas quelque chose qu’on peut contourner depuis l’utilisateur. Traduction : si ton modèle peut écrire du gaz moutarde sur Excel, c’est que tes barrières de sécurité sont en carton. Anthropic, avec ses papiers sur l’alignement et ses comités éthiques, semble ignorer que le diable se cache dans les détails, ou dans les cellules de tableur.
Anthropic lève des milliards en jouant les gardiens de la morale, publie des évaluations qui montrent des red flags monumentaux, et les ignore allègrement pour sortir ses modèles. Dario parle de sagesse pendant que Claude génère des armes chimiques. Leur transparence, c’est juste de l’auto-incrimination documentée : « Regardez, on sait que c’est dangereux, mais on le fait quand même. »
La vérité, c’est que toutes ces boîtes, OpenAI, Anthropic, Google, jouent le même jeu. La course aux armements, les levées de fonds astronomiques, les raccourcis éthiques. La seule différence, c’est l’emballage. Chez Anthropic, c’est du safety-washing avec des citations de philosophes. Mais quand le modèle crache du poison, les beaux discours ne pèsent pas lourd.
Et toi, tu fais quoi ? Tu crois au conte de fées où Claude devient sage tout seul, ou tu regardes les faits : un modèle qui écrit des manuels de guerre chimique, des tests de sécurité qui échouent, et un patron qui lève 10 milliards tout en prédisant l’apocalypse. Moi, je dis que le bullshit-detector devrait sonner à plein régime. Parce que confier notre avenir à une IA qui ne sait pas distinguer un tableur d’une arme, c’est pas de la sagesse. C’est de la folie pure.
Sources :
Comments are closed