Cohere joue les trublions avec un modèle de transcription open source qui détrône OpenAI

Cohere, la boîte qui aime bien nous rappeler qu’elle n’est pas OpenAI (ou alors la version canadienne, plus polie), vient de lâcher un nouveau joujou. Transcribe, c’est son petit nom. Un modèle de reconnaissance vocale open source, 2 milliards de paramètres, 14 langues, et qui, selon leurs benchmarks maison, écrase tout le monde, y compris Whisper d’OpenAI.

Mais le vrai coup de génie, c’est pas juste de battre OpenAI sur un tableau de scores. C’est la cible : les edge devices. Ces petits appareils qui traînent dans nos poches, nos voitures, nos usines, et qui ont la réaction d’un escargot sous tranquillisants quand tu leur demandes de comprendre ta voix. Cohere promet de régler ça. Moins de latence, plus de réactivité, et un modèle assez léger pour ne pas nécessiter un supercalculateur dans le cloud. Sous licence Apache 2.0, parce qu’apparemment, ils ont décidé de jouer les gentils de l’open source, pour de vrai cette fois.

Tu vas me dire : « Encore une annonce, encore des benchmarks, encore du buzz. » Et t’as pas totalement tort. Cohere, comme tous les autres, sait très bien que sortir un modèle open source, c’est le meilleur moyen de faire parler de toi sans avoir à déployer une armée de commerciaux. Sauf que là, y’a un truc qui pique. Ils visent directement le terrain de jeu de NVIDIA, le roi incontesté du hardware pour l’IA, en proposant un modèle optimisé pour l’edge. Autant défier Ferrari avec une trottinette électrique : surprenant, audacieux, et potentiellement complètement con. Sauf que si la trottinette va plus vite en ville, ça change la donne.

Leur angle ? La latence. Parce qu’envoyer ton audio dans le cloud, attendre que Whisper le traite, et récupérer la réponse, ça prend du temps. Trop de temps pour des applications en temps réel. Cohere Transcribe, lui, est fait pour tourner localement. Moins de dépendance au cloud, moins de latence, et peut-être même un peu plus de vie privée (bon, on verra).

Mais bon, ne nous emballons pas. Cohere, c’est la même boîte qui a levé des centaines de millions en promettant des modèles de langage révolutionnaires, et qui se retrouve souvent à courir derrière GPT-4. Là, ils changent de terrain. La reconnaissance vocale, c’est un marché énorme, mais aussi un champ de bataille déjà bien occupé. OpenAI avec Whisper, Google avec ses modèles maison, et une tripotée de startups qui promettent la lune.

Leur pari : que l’open source et la performance sur edge vont leur permettre de grignoter des parts de marché. Apache 2.0, ça veut dire que n’importe qui peut l’utiliser, le modifier, le vendre. C’est du vrai open source, pas du Meta-style avec des conditions d’utilisation à rallonge. Et ça, c’est rafraîchissant.

Reste à voir si les développeurs vont suivre. Parce qu’un benchmark, c’est bien, mais l’adoption, c’est mieux. Et Cohere, malgré tout son talent, n’a pas encore le réseau d’OpenAI ou la force de frappe de Google. Mais si ils arrivent à imposer Transcribe comme la référence open source pour la reconnaissance vocale sur edge, ils pourraient bien créer un petit séisme. Ou au moins faire suer un peu Jensen Huang.

En attendant, on a un modèle qui promet, une licence qui tient la route, et une boîte qui essaie de se faire une place au soleil sans juste copier ses grands frères. C’est déjà pas mal. Mais comme d’habitude, on jugera sur pièce. Parce que les promesses, en IA, on en a un paquet. Les livraisons, un peu moins.


Sources :

Categories

Comments are closed

Latest Comments

Aucun commentaire à afficher.