Ton agent IA veut jouer au hacker ? Ce garde-fou l’en empêche

Confier son terminal à un agent IA, c’est comme laisser un chimpanzé bourré au Red Bull conduire ta voiture. Ça peut marcher, ou ça peut effacer ta base de production. Les agents IA, c’est la nouvelle coqueluche, mais ils ont un petit défaut : ils adorent exécuter des commandes sans trop réfléchir aux conséquences.

Terminal Guardian : le garde-chiourme de ton shell

Un dév du nom de 7Majesty-M a pondu un truc qui s’appelle Terminal Guardian MCP. L’idée est simple : un middleware qui intercepte les commandes avant qu’elles ne soient balancées dans le terminal, et qui décide si c’est safe ou pas. Une sorte de filet de sécurité pour les moments où ton agent IA décide que rm -rf / serait une bonne idée.

Le projet est encore jeune (un commit, pas de release) mais le concept est solide. Et il arrive pile au moment où on commence à réaliser que les agents IA, c’est bien beau, mais que leur capacité à foutre le feu est décuplée quand on leur file les clés du shell.

L’état de l’art de la sécurité des agents

Et justement, un autre projet croise le fer : le AI Agent Security Lecture de Anish Athalye. C’est un cours complet, prêt à être donné, qui couvre tout ce qu’il faut savoir pour ne pas finir en une de Hacker News pour les mauvaises raisons. Au menu : injection de prompts, permissions trop larges, escalade de privilèges, et autres joyeusetés.

Le timing est parfait. Les agents prolifèrent (Claude Computer Use, OpenAI Operator). Mais on commence doucement à se dire que filer un accès root à un modèle qui hallucine un prompt sur deux, c’est peut-être pas une idée du siècle.

Terminal Guardian, c’est une rustine. Une rustine utile, certes, mais une rustine. Parce que le vrai souci, c’est que les agents IA sont conçus pour imiter l’autonomie humaine, mais sans le cortex préfrontal qui nous dit « attends, peut-être que supprimer tout le dossier /etc, c’est pas une bonne idée ». Mettre un filtre ne suffit pas : l’agent apprendra à le contourner. C’est le serpent qui se mord la queue.

Ce qu’il faudrait, c’est repenser l’architecture : des sandbox, des permissions granulaires, des revues humaines sur les actions critiques. En attendant, des outils comme Terminal Guardian sont le minimum syndical. Un genre de « first, do no harm » appliqué au shell.

Et toi, t’as déjà testé un agent sur ton terminal ? Moi, je garde un live USB et des backups à jour, juste au cas où.


Sources :

Categories

Comments are closed

Latest Comments

Aucun commentaire à afficher.