L’IA qui galère à cliquer comme un humain, et celle qui se prend pour un ch’ti

Deux papiers de recherche, deux sujets a priori sans rapport, et pourtant le même constat qui s’impose : l’IA, pour l’instant, c’est comme un stagiaire très enthousiaste mais qui comprend à moitié ce qu’on lui demande. GUI-Libra essaie d’apprendre aux agents à cliquer sur des boutons sans foutre le bordel. Parallèlement, un autre labo tente de leur expliquer que « nowt » veut dire « rien » et que « chuck » c’est un terme d’affection dans le Nord de l’Angleterre. La course au compute et aux levées de fonds, c’est bien joli, mais quand il s’agit de faire des trucs simples, on est encore à l’âge de pierre.

GUI-Libra : quand ton IA se perd dans un menu déroulant

Le papier d’ArXiv, signé Rui Yang et al., est un bel exemple de recherche qui adresse un problème concret, mais dont le titre pompeux cache une réalité assez triviale : les agents IA open source sont nuls pour naviguer dans des interfaces graphiques. Tu sais, ce truc que n’importe quel humain fait sans y penser ? Ouvrir une app, cliquer sur un onglet, remplir un formulaire ? Eh bien pour une IA, c’est un parcours du combattant.

Les auteurs pointent deux limitations principales : un manque de données de raisonnement alignées avec les actions, et l’adoption naïve de pipelines génériques qui ne tiennent pas compte des spécificités des agents GUI. En clair, on a entraîné des modèles à réfléchir comme des philosophes, pas à agir comme des utilisateurs. Le résultat ? Ton agent te pond un raisonnement en chaîne (CoT) impeccable sur pourquoi il faut cliquer sur « Envoyer », mais il clique sur « Supprimer » à la place. Bravo.

Leur solution, GUI-Libra, propose une recette de training sur mesure avec une supervision action-aware et un RL partiellement vérifiable. Traduction : ils essaient d’apprendre à l’IA que, parfois, plusieurs actions peuvent être correctes (tu peux sauvegarder un fichier via Fichier > Enregistrer ou via Ctrl+S), et que se baser sur une seule démonstration pour la vérification, c’est un peu court. C’est du bon boulot de recherche, mais ça en dit long sur l’état du secteur : on en est encore à essayer de faire cliquer un modèle sur un bouton sans qu’il fasse n’importe quoi. Les « agents autonoms » qui vont révolutionner le travail ? Pour l’instant, ils peinent à remplir un formulaire en ligne.

L’IA qui veut comprendre l’accent du Yorkshire

Pendant ce temps, le Daily Mail rapporte qu’un autre groupe de scientifiques s’échine à apprendre à l’IA les accents et dialectes britanniques. Parce que oui, les systèmes automatisés de centres d’appel plantent lamentablement dès qu’un client du Lancashire dit « nowt » au lieu de « nothing ». L’article, typique du Daily Mail, se concentre sur le côté anecdotique (« combien de ces termes regionaux connaissez-vous ? »), mais derrière, c’est le même problème : l’IA est entraînée sur des données standardisées, souvent en anglais américain propre sur lui, et dès qu’elle rencontre de la variabilité linguistique, elle déraille.

C’est drôle, parce que ça montre à quel point la hype autour des modèles multimodaux ou des agents avancés occulte les défis basiques. Tu peux avoir un modèle qui génère du code ou écrit des poèmes, mais si tu lui parles avec un accent écossais, il te répond « I’m sorry, I didn’t understand that ». La réalité, c’est que l’IA est encore incroyablement fragile dès qu’on sort des sentiers battus.

Le grand écart entre la théorie et la pratique

Ce qui ressort de ces deux sujets, c’est l’écart abyssal entre les annonces tonitruantes (« l’IA va remplacer les développeurs », « les agents vont automatiser tous les processus ») et la réalité du terrain. D’un côté, des papiers de recherche pointus qui tentent de résoudre des problèmes hyper-spécifiques mais fondamentaux, comme la navigation GUI ou la compréhension des dialectes. De l’autre, une industrie qui vend du rêve avec des démos léchées et des benchmarks triés sur le volet.

GUI-Libra est un pas dans la bonne direction, mais il rappelle que les agents IA ne sont pas prêts de prendre le contrôle de ton ordinateur. Et l’article sur les accents britanniques montre que même la compréhension du langage naturel, un domaine mature en apparence, a encore des lacunes ridicules. Quand on te parlera d’une « révolution » en IA, demande-toi si le modèle sait cliquer sur le bon bouton ou comprendre un accent régional. C’est peu probable.

On avance, oui, mais lentement. Mais entre les papiers académiques qui grattent les détails techniques et les communiqués de presse qui promettent la lune, il y a un monde. Un monde où l’IA apprend à dire « nowt » et à ne pas supprimer tes fichiers par erreur. Pas vraiment de quoi trembler pour nos emplois, pour l’instant.

Sources :

L’IA qui galère à cliquer comme un humain, et celle qui se prend pour un ch’ti

Latest Comments

Assistant MOGWAI

Assistant MOGWAI