Écoute ça et ton IA devient mon esclave

Tu croyais qu’il suffisait de ne pas cliquer sur des liens douteux pour être tranquille ? Raté. Maintenant, l’oreille est en première ligne. Une équipe de l’université de Zhejiang a pondu ce qu’ils appellent AudioHijack, une technique qui permet de planquer des instructions malveillantes dans un fichier audio, complètement invisibles pour l’oreille humaine, mais qui font faire n’importe quoi à l’assistant vocal préféré.

Le principe est vicieux : on balance un son anodin (une vidéo YouTube, une piste Spotify, la voix d’un pote sur Zoom) à un modèle audio. Le modèle l’analyse, et paf, il se met à obéir à des ordres cachés : lancer une recherche sensible, télécharger un fichier depuis un serveur contrôlé par un attaquant, ou carrément envoyer un email avec des données personnelles. Le tout sans que l’utilisateur n’ait rien demandé. Le taux de succès est de 79 à 96 % en moyenne, selon les modèles testés.

Ils utilisent des adversarial examples, une vieille lune de la sécu ML qu’on croyait réservée aux images et au texte. Là, ils l’adaptent aux modèles génératifs audio, qui sont pourtant plus difficiles à attaquer parce qu’ils découpent le son en tokens (des bouts numérotés). Résultat : ils ont bidouillé une méthode pour approximer le retour nécessaire à l’optimisation, et hop, le tour est joué.

Ils ont testé sur 13 modèles ouverts, y compris des services Microsoft et Mistral. En prime, même les modèles propriétaires fermés comme GPT-4o ne sont pas à l’abri, à condition qu’ils partagent des briques open source. Les chercheurs bossent d’ailleurs là-dessus.

Les défenses sont à pleurer. Les consignes du style « fais gaffe aux instructions cachées » ne réduisent l’attaque que de 7 %. Demander au modèle de vérifier sa réponse ? 28 % d’efficacité. La seule parade à peu près potable, c’est de surveiller les mécanismes d’attention internes du modèle. Mais si l’attaquant est au courant, il peut juste ajuster son attaque pour passer sous les radars, au prix d’une petite baisse de succès.

Bref, on a un nouveau joli problème sur les bras. Comme le dit Eugene Bagdasarian de l’UMass Amherst : « Avec le texte, on peut repérer des trucs chelous. Avec l’audio, c’est la misère parce qu’on entend que dalle. »

Alors à ta place, je réfléchirais à deux fois avant de laisser une IA écouter ce qui traîne sur un ordinateur. Et si un jour Siri se met à commander des trucs bizarres sans avoir pipé mot… tu sauras pourquoi.

Categories

Comments are closed

Latest Comments

Aucun commentaire à afficher.