C’est l’éternel problème des modèles géants : tu les fine-tunes pour une tâche, ils oublient tout ce qu’ils savaient avant. C’est le syndrome de la mémoire de poisson rouge, version paramètres. Pendant ce temps, côté imitation learning, Microsoft Research s’amuse avec des modèles qui prédisent l’avenir pour éviter de copier bêtement. Deux sujets, une même quête : faire en sorte que l’IA apprenne sans tout foutre en l’air à chaque fois.
Le sous-espace partagé, ou comment faire tenir plusieurs vies dans une seule tête
Prakhar Kaushik et son équipe dégagent Share. L’idée ? Au lieu de greffer un LoRA par tâche comme on colle des post-its partout, tu apprends un seul sous-espace low-rank qui s’adapte dynamiquement. En gros, tu extrais le noyau de connaissances des tâches passées et tu y intégres les nouvelles infos en identifiant ce qui est essentiel. Sur le papier, c’est élégant : fini les 15 adaptateurs qui se marchent sur les pieds, fini le rejeu de données qui bouffe du compute comme un adolescent devant TikTok. Leur pitch : « strict continual learning » sans reposer sur des béquilles. Traduction : on veut que le modèle se souvienne de tout, sans tricher.
Mais soyons francs. Le « strict », dans le milieu, c’est souvent du wishful thinking. Les papiers académiques adorent promettre la lune avec des datasets propres et des tâches bien découpées. Dans la vraie vie, quand tes tâches se chevauchent ou que les données débarquent en vrac, le sous-espace partagé peut vite devenir un sac de nœuds. Et leur « dynamiquement » ? J’ai lu l’abstract, pas le papier complet, mais j’ai comme un doute que ça résiste à un déploiement à l’échelle. Ça sent le proof-of-concept qui fait rêver, avec la promesse implicite que « dans six mois, on scale ». Mais dans les faits, souvent, ça scale pas.
Microsoft et l’art de prédire l’avenir pour mieux copier
Pendant ce temps, chez Microsoft Research, on s’intéresse à l’imitation learning. Leur constat : les modèles de dynamique inverse prédictifs (PIDM) battent à plate couture le bon vieux Behavior Cloning. Pourquoi ? Parce que prédire ce qui va se passer ensuite réduit l’ambiguïté. Au lieu de juste recopier des démonstrations comme un perroquet shooté au café, le modèle doit comprendre la causalité. Résultat : besoin de moins de données, et une généralisation qui pète.
C’est malin. Mais ça reste du domaine de la robotique ou des environnements simulés, où « ce qui va se passer » est relativement prévisible. Essaye d’appliquer ça à un chatbot qui doit imiter un humain dans une conversation ouverte : bonne chance pour prédire la prochaine réplique quand ton interlocuteur peut partir sur un délire sur les chats en pyjama. Le gap entre la recherche propre sur des benchmarks contrôlés et le bordel du monde réel est toujours là, large comme le Grand Canyon.
Le vrai enjeu : l’efficacité qui tient la route
Ce qui unit ces deux papiers, c’est la quête d’efficacité. Share veut réduire le coût compute du continual learning, Microsoft veut réduire le besoin en données pour l’imitation. Deux faces d’une même pièce : comment faire plus avec moins, sans que ça parte en couilles.
Mais attention au bullshit académique. Share vante le « sans rejeu de données » comme une révolution, mais si ton sous-espace partagé finit par être un compromis pourri qui fait mal toutes les tâches, t’as rien gagné. Et les PIDM, c’est beau sur le papier, mais attends de voir les performances en conditions réelles avec du bruit, des exceptions, des edge cases. Et dans la pratique, ça dégringole.
Conclusion : la recherche avance, mais garde ton scepticisme
Share est une piste intéressante pour le fine-tuning continu, surtout si tu veux éviter le casse-tête des multiples adaptateurs. Les PIDM de Microsoft rappellent que parfois, une petite twist conceptuelle peut débloquer des gains massifs. Mais dans les deux cas, méfie-toi des annonces triomphantes. La recherche, c’est comme le vin : faut laisser vieillir un peu avant de savoir si c’est buvable. En attendant, continue de fine-tuner tes modèles comme un bourrin, et prie pour qu’ils oublient pas l’essentiel.
Sources :
Comments are closed