Google balance son nouveau modèle de synthèse vocale, Gemini 3.1 Flash TTS, et comme d’habitude, ils vendent ça comme la plus grande avancée depuis l’invention du son. Disponible sur tous leurs produits, avec support de plus de 70 langues et des tags audio pour contrôler le style, le rythme et le ton. Wow.
Sauf que tu t’en souviens peut-être, il y a six mois, ils nous avaient déjà servi le même plat avec Gemini 2.0 TTS, et avant ça avec WaveNet, et avant ça avec Duplex. À chaque fois, c’est « le plus expressif », « le plus naturel », « la révolution ». Et à chaque fois, tu testes, et ta voix de synthèse te demande encore si tu veux vraiment acheter un billet pour Brest quand tu cherchais Boston.
Les 70 langues, c’est sympa sur le papier. Mais combien sont réellement utilisables ? Combien ont l’intonation d’un humain et pas d’un robot qui récite un manuel ? L’article de The Decoder le dit sans le dire : ils ajoutent des tags audio pour un contrôle précis. Traduction : les versions précédentes étaient tellement rigides qu’il fallait bidouiller pour éviter les voix de démoniaque. Maintenant, tu peux ajouter des balises dans ton texte pour que ça sonne moins faux. Innovation ? Plutôt rattrapage.
Et pendant ce temps, Google a toujours du mal à faire en sorte que Gemini ne réécrive pas l’histoire ou ne génère pas des images de Nazis en diversité. Mais bon, au moins, leur TTS parle joliment. Priorités.
Le vrai jeu ici, c’est la bataille des assistants vocaux. OpenAI a sa voix Sky qui fait fantasmer les redditeurs, Apple améliore Siri à coups de milliards, et Google ne peut pas se permettre de rester à la traîne. Sauf qu’au lieu d’avouer « on améliore notre tech pour pas perdre la course », ils emballent ça dans du marketing à base de « next generation ».
Faut pas se leurrer : c’est probablement un bon modèle. Mais est-ce que c’est vraiment un saut quantique, ou juste une itération de plus bien vendue ? À en juger par leur historique de survente, je penche pour la deuxième option. En attendant, si tu veux faire parler ton IA en swahili avec une touche d’ironie, maintenant tu peux. Le progrès, quoi.
Sources :
Comments are closed