Tu te souviens quand les assistants vocaux te répondaient « Je n’ai pas encore la capacité de faire ça » ? Cette époque est en train de s’éteindre. Google vient de lâcher une mise à jour de son framework agentique Gemini qui intègre un protocole téléphonique open source. Concrètement, tes agents peuvent maintenant passer des appels, décrocher, et dialoguer avec de vrais humains au bout du fil.
C’est pas de la science-fiction. C’est le fruit d’une intégration directe avec le protocole SIP (Session Initiation Protocol) couplé à la synthèse vocale temps réel de Gemini Omni. L’annonce est passée un peu inaperçue pendant le Google I/O, mais c’est potentiellement plus disruptif que la moitié des fonctionnalités dévoilées sur scène.
OpenClaw a montré la voie
Forcément, Google n’invente rien. Le proto open source OpenClaw avait déjà démontré qu’un agent pouvait gérer des appels téléphoniques complexes – réservations, support client, rappels. Ce que Google apporte, c’est l’infrastructure : un modèle pré-entraîné à la conversation téléphonique, une gestion des bruitages ambiants, et surtout la capacité à enchaîner actions et paroles sans latence. Là où OpenClaw butait sur les délais de traitement, Gemini Omni promet des échanges fluides.
Quand ton agent appelle ton banquier
Imagine : tu lances un agent depuis ton tel, il appelle ta banque, négocie un rendez-vous, confirme ton solde, et te rappelle avec le résumé. Pendant ce temps, toi tu roupilles, ou tu mates une série. Le rêve de l’assistant personnel qui déléguait déjà les résos de resto s’étend à tout ce qui se fait par téléphone.
Mais ça sent le démarchage automatique à plein nez
Parce que si Google ouvre ça aux développeurs sans garde-fou, on va se retrouver avec des agents qui te vendent des assurances ou des abonnements fibre toutes les cinq minutes. La régulation anti-spam téléphonique est déjà en place aux États-Unis et en Europe – Google devra montrer que son système intègre le consentement et la traçabilité. Sinon, c’est la porte ouverte à l’enfer des robocalls nouvelle génération.
Gemini Phoneline : le nom qui tue
Google a baptisé cette fonctionnalité Gemini Phoneline dans la doc interne. Elle sort en beta aux US d’abord, avec une API réservée aux partenaires certifiés. Les cas d’usage officiels : santé (rappels de rendez-vous), logistique (confirmations de livraison), service client. Officieux : les agents qui appellent ta copine pour lui souhaiter ton anniversaire. On n’est pas à l’abri d’un bon délire.
Au final, c’est une étape logique dans la guerre des agents. OpenClaw a popularisé l’agent qui écrit ; maintenant, celui qui parle et écoute. Reste à voir si les humains sont prêts à parler à des machines qui imitent si bien la voix qu’on ne fait plus la différence. Moi, je dis : tant que mon agent commande ma pizza sans se faire insulter par le livreur, je prends.
Sources :
Comments are closed