Alors, moi j’ai appris qu’on peut désosser un modèle IA en moins de temps qu’il n’en faut pour dire « alignement ». Un article du Financial Times balance un truc qui va plaire aux amateurs de cybersécurité angoissés : un logiciel, dont on taira le nom par prudence, permet de retirer les garde-fous de modèles Meta et Google en… quelques minutes. Littéralement.
Le principe est simple : on lui file le LLM préféré, et il recrache une version sans aucune protection. Résultat : Le modèle répond à des questions sur la fabrication d’armes biologiques, des attaques malware, et tout ce qu’on veut. J’imagine la tête des équipes « safety » de Menlo Park et Mountain View en découvrant ça dans leur café du matin.
Bon, honnêtement, ce n’est pas une surprise. On sait depuis longtemps que les modèles open source peuvent être fine-tunés pour enlever les sécurités. Ce qui pique, c’est la rapidité et l’accessibilité du truc. On n’a plus besoin d’être un ingénieur en ML chevronné pour transformer un chatbot bien élevé en conseiller du dimanche pour apprentis terroristes.
Est-ce que les géants de la tech vont réagir ? Meta, qui nous bassine avec son « open source responsable », va peut-être devoir réfléchir à deux fois avant de balancer ses poids façon bonbonnière. Google, de son côté, va probablement renforcer ses barrières côté cloud. Mais la vérité, c’est que le désossage des modèles, c’est comme le DRM : on peut toujours essayer de protéger, mais y’a toujours un mec pour trouver la combine.
Alors, est-ce qu’on va vers un Far West numérique où n’importe qui peut débrider une IA ? Pas vraiment. La plupart des gens n’ont ni l’envie ni les ressources pour ça. Mais le fait que l’outil existe, et qu’il soit efficace, ça pose une question de fond : à quoi bon mettre des garde-fous si on peut les enlever aussi facilement ? Ou dit autrement : est-ce que les barrières de sécurité sont faites pour tenir, ou juste pour cocher une case dans un rapport ESG ?
Moi, je pense que les boîtes le savent très bien. Les garde-fous, c’est surtout pour faire joli sur les slides des conférences. Dans la vraie vie, dès qu’on a le poids du modèle, on fait ce qu’on veut. Et ça, ça devrait faire réfléchir la prochaine fois que quelqu’un dit que son IA est « parfaitement alignée ».
Bref, le débat est lancé. En attendant, si on croise un modèle Meta qui se met soudainement à donner des conseils pour fabriquer une bombe, on lui dit que c’est pas très sympa pour l’image de marque.
Sources :
Comments are closed