Tu en as pas marre, de ces bagnoles autonomes qui roulent comme des vieilles dames sur un plateau d’œufs ? Moi si. Elles sont parfaitement sûres, incroyablement prudentes, et complètement insupportables. Elles respectent le code à la lettre, même quand tout le monde le viole, et tu te retrouves coincé dans une file indienne interminable pendant que ton rendez-vous passe à la trappe. Eh bien, réjouis-toi : deux papiers de recherche fraîchement débarqués sur ArXiv prétendent régler ce problème. Vega et Drive My Way (DMW) veulent te donner une voiture qui comprend tes instructions en langage naturel. « Dépêche-toi, je suis en retard », « Laisse-moi conduire comme si j’étais seul sur la route », ou même « Évite les dos-d’âne, mon dos me tue ». Sur le papier, c’est la libération. En pratique, prépare tes ceintures, on va avoir des accrochages.
Le rêve : une voiture qui t’écoute (enfin)
Vega, développé par une équipe chinoise, et DMW, sorti à peu près en même temps, attaquent le même problème par des angles légèrement différents. Tous deux sont des modèles Vision-Langage-Action (VLA), mais Vega ajoute un « monde » dans son nom pour faire genre. Leur promesse commune : fini la conduite générique et robotique. Vega utilise un jeu de données de 100 000 scènes annotées (InstructScene) pour apprendre à suivre des instructions diverses et générer des trajectoires. DMW, lui, va plus loin en apprenant un « embedding utilisateur » à partir des habitudes de vrais conducteurs, combiné à des instructions en temps réel. En gros, Vega comprend tes ordres ponctuels, DMW essaie de capturer ton style sur le long terme – si t’es du genre à frôler les limitations ou à klaxonner dès que le feu passe au vert.
Les données : le gros nid-de-poule sous le capot
Premier problème, et il est de taille : les données. Vega se vante de ses 100 000 scènes, mais d’où viennent-elles ? Annotées par qui ? Dans quelles conditions ? Les auteurs sont super vagues. Si c’est du synthétique généré par une IA, on risque d’avoir une voiture qui conduit comme une IA – c’est-à-dire, de la merde. Si c’est du réel, il y a des biais énormes. InstructScene a-t-il été collecté en Chine, aux États-Unis, en Allemagne ? Parce que la conduite à Shanghai, c’est pas la même chose qu’à Munich. Un modèle entraîné sur des données chinoises va probablement avoir tendance à couper les priorités et à klaxonner pour un oui ou pour un non. Super personnalisation.
DMW, avec son apprentissage des habitudes, c’est encore plus glissant. Il collecte des données de « multiples vrais conducteurs ». Mais lesquels ? Des conducteurs prudents ? Des chauffards ? Des livreurs Uber pressés ? Si ton embedding utilisateur est calqué sur un échantillon biaisé, tu vas hériter de mauvaises habitudes sans même t’en rendre compte. Et comment ils gèrent les instructions contradictoires ? Si tu dis « conduis agressivement » mais que ton embedding dit que t’es un trouillard, qui l’emporte ? Les papiers n’en parlent pas. C’est le genre de détails qui transforment une feature cool en cauchemar juridique.
Le benchmarketing : encore lui
Évidemment, les deux équipes annoncent des performances de ouf sur leurs benchmarks maison. Vega « surpasse les modèles existants » en génération de trajectoires, DMW « aligne parfaitement les préférences ». Sauf que ces benchmarks, ils les ont choisis. Où sont les tests en conditions réelles, avec de vrais piétons, de vraies intempéries, et de vrais connards au volant ? Nulle part. C’est du classique : on publie un papier technique impressionnant, on fait le buzz sur ArXiv, et on laisse les ingénieurs se démerder pour le déployer. Rappelle-toi Tesla et son Autopilot : des années de promesses, des accidents à la pelle, et des procès interminables. Vega et DMW, sans validation indépendante rigoureuse, c’est le même scénario en préparation.
Les implications : personnalisation ou bordel généralisé ?
Imagine un monde où chaque voiture a son propre style de conduite. Super pour l’utilisateur, mais un enfer pour la sécurité routière. Si ma Vega comprend « dépêche-toi » comme « double par la droite en frôlant le trottoir », et que ta DMW interprète « sois prudent » comme « roule à 20 en plein périph », on va droit au carambolage. La personnalisation, c’est bien, mais il faut des garde-fous. Et là, les chercheurs sont muets. Aucune mention de mécanismes de sécurité pour empêcher les instructions dangereuses. « Écrase ce piéton, je suis pressé » – est-ce que Vega va obéir ? Je parie que oui, si c’est dans les données.
Et puis, il y a la question éthique. Si ta voiture cause un accident parce qu’elle a suivi ton instruction « aggressive driving », qui est responsable ? Toi ? Le fabricant ? Les chercheurs qui ont publié le modèle ? DMW parle d’« alignement des préférences », mais aligné sur quoi ? Sur tes désirs immédiats, même s’ils sont stupides ? C’est du réchauffé du débat sur l’alignement des LLMs, mais avec des vies en jeu. Dario Amodei devrait publier un essai de 20 000 mots là-dessus, pendant que sa boîte lève 10 milliards pour développer la techno.
Conclusion : prometteur, mais attendez avant de vendre votre permis
Vega et DMW sont des pas intéressants. Ils montrent que la communauté commence à penser au-delà de la conduite générique, et c’est une bonne chose. Mais entre un papier de recherche bien propre et une voiture qui roule dans ta rue, il y a un fossé énorme. Les problèmes de données, de biais, de sécurité et de responsabilité sont loin d’être résolus. Pour l’instant, c’est de la science cool, pas une révolution. Alors, la prochaine fois que tu seras coincé derrière une voiture autonome trop prudente, rappelle-toi : on y travaille. Mais prévois encore quelques années de frustration, le temps que les chercheurs arrêtent de benchmarker dans le vide et affrontent la vraie route, avec tous ses aléas et ses cons au volant.
Sources :
Comments are closed