La pensée avant l’action, ou comment Zhiyuan veut faire réfléchir les robots

Si t’as déjà vu un robot essayer de saisir une tasse et la fracasser contre le mur, tu sais que la dernière étape entre « comprendre » et « faire » est souvent un gouffre abyssal. Aujourd’hui, Zhiyuan Robotics débarque avec GO-2, son nouveau modèle de fondation pour l’intelligence incarnée, et jure que c’est la solution. Leur innovation phare ? L’« Action Thought Chain » (ou « chaîne de pensée d’action » pour les francophones), une technologie qui, selon eux, va permettre aux robots de réfléchir avant d’agir, plutôt que de foncer tête baissée comme un ado bourré à 4h du mat’.

Sur le papier, ça claque. Zhiyuan promet de combler ce fossé sémantique entre l’instruction et l’exécution précise. Au lieu du traditionnel « regarder et agir » – une approche qui donne souvent des résultats dignes d’une vidéo TikTok de fail – GO-2 implémenté un raisonnement interne et une planification systématique. En gros, le robot se fait un petit scénario dans sa tête avant de bouger, ce qui devrait booster la précision et l’efficacité des tâches. Ils annoncent même un nouveau SOTA (State-of-the-Art) dans le secteur, parce que dans l’IA, si t’as pas un benchmark qui tue, t’as rien.

Mais bon, on est en 2026, et les annonces de modèles révolutionnaires, on en mange trois par semaine. Ce qui m’intéresse, c’est pas le buzz, c’est la cohérence. Zhiyuan, c’est une boîte chinoise spécialisée en robotique, pas un géant du logiciel qui fait du benchmarketing pour faire monter sa valorisation. Leur focus sur l’intelligence incarnée est concret : on parle de robots qui doivent interagir avec le monde physique, pas de chatbots qui génèrent du texte en se planquant derrière un écran. Ça, ça change la donne. Quand Google annonce un nouveau SOTA sur 47 benchmarks, tu sais que la moitié sont bidons. Quand une boîte de robotique parle de précision d’exécution, les conséquences sont tangibles : soit le robot réussit à ouvrir une porte, soit il la défonce. Pas de place pour le flou artistique.

L’« Action Thought Chain », c’est sexy comme concept. Ça rappelle la « Chain-of-Thought » (CoT) qu’on utilise dans les LLMs pour améliorer le raisonnement, mais appliquée au domaine physique. Sauf que passer de la génération de texte à la manipulation d’objets, c’est un saut de géant. Dans un monde parfait, GO-2 permet à un robot de planifier chaque étape – « approcher la tasse, ajuster la prise, soulever doucement » – avant de bouger un servo. Dans la réalité, je parie qu’on est encore au stade où le robot réfléchit pendant 10 secondes pour finalement renverser le café. Mais l’intention est là, et c’est ce qui compte. Le domaine de l’intelligence incarnée avance à pas de tortue, alors toute avancée, même modeste, mérite qu’on s’y attarde.

Et puis, avouons-le, après des mois à entendre Sam Altman nous parler de l’apocalypse tout en levant des milliards, ou Dario Amodei pondre des essais sur la sécurité pendant que ses modèles tentent de faire chanter les utilisateurs, un peu de concret fait du bien. Zhiyuan ne vend pas du rêve existentialiste, il vend une technologie qui pourrait un jour faire que ton robot domestique arrête de confondre la télécommande et un sandwich. C’est rafraîchissant.

GO-2 ne va probablement pas changer la donne du jour au lendemain. Les défis de l’intelligence incarnée sont colossaux : variabilité de l’environnement, latences physiques, coûts matériels. Mais en fixant un nouveau benchmark et en poussant l’idée d’une planification systématique, Zhiyuan donne un coup de pied dans la fourmilière. Reste à voir si les robots vont enfin arrêter de casser la vaisselle, ou si c’est juste une autre annonce bien emballée pour faire parler. Dans tous les cas, ça vaut le coup de garder un œil sur leurs démos – et de cacher tes tasses précieuses au cas où.


Sources :

Categories

Comments are closed

Latest Comments

Aucun commentaire à afficher.