La scène du GTC 2026 à San Jose. Jensen Huang, veste en cuir, sourit. Il vient d’annoncer le Nvidia Groq 3, un « Language Processing Unit » conçu pour une seule chose : l’inférence. Traduction pour les non-initiés : faire fonctionner les modèles d’IA, pas les entraîner. Le genre de truc qui sert à répondre à ton prompt sur ChatGPT en moins de deux secondes, plutôt qu’à sucer des mégawatts pendant six mois sur un dataset piraté.
C’est une première pour Nvidia. Le géant du GPU, qui a surfé sur la vague de l’entraînement avec des cartes toujours plus grosses et plus chères, admet enfin que « faire tourner » l’IA est un problème différent. Un problème de latence, de fluidité, de coût à l’usage. « L’IA doit maintenant penser. Pour penser, elle doit faire de l’inférence », a-t-il déclaré. Formule marketing ? Oui. Mais derrière, il y a une réalité : l’adoption massive de l’IA pousse à optimiser la phase de production, pas seulement la R&D.
Et pour ça, Nvidia n’a pas réinventé la roue. Ils ont acheté la startup Groq pour 20 milliards de dollars le 24 décembre dernier. Deux mois et demi après, le Groq 3 est annoncé. Quand tu as les moyens, tu accélères. La technologie clé de Groq ? Une architecture basée sur de la SRAM intégrée directement sur la puce, plutôt que de compter sur de la mémoire HBM externe comme sur les GPU classiques. Résultat : un flux de données linéaire et ultra-rapide, parfait pour générer des tokens (les unités de texte) à basse latence.
Les chiffres parlent d’eux-mêmes. Le nouveau GPU Rubin de Nvidia (aussi annoncé) a 288 Go de HBM et crache 50 pétaFLOPS en calcul 4-bit. Le Groq 3 LPU n’a que 500 Mo de SRAM et 1,2 pétaFLOPS en 8-bit. Mais sa bande passante mémoire est de 150 To/s, soit sept fois celle du Rubin (22 To/s). C’est le design « lean » : moins de mémoire, mais accessible beaucoup plus vite. Exactement ce qu’il faut pour l’inférence, où chaque milliseconde compte.
Cette annonce valide une tendance de fond. Pendant des années, des dizaines de startups (d-Matrix, Etched, RainAI, EnCharge, etc.) exploraient des architectures exotiques pour l’inférence : calcul en mémoire, ASIC pour transformers, puces neuromorphiques, mathématiques logarithmiques… Un peu comme une explosion cambrienne du silicium. Nvidia, en rachetant Groq, a en quelque sorte choisi son champion. Ou du moins, un cheval pour courir cette course.
Mais attention, le Groq 3 ne fonctionne pas seul. Nvidia le vend dans un « tray » baptisé Groq 3 LPX, qui combine 8 LPU Groq 3 et un système Vera Rubin (GPU + CPU). Pourquoi ? Parce que l’inférence moderne se décompose souvent en deux phases : le « prefill » (traitement de la prompt, parallélisable et gourmand en calcul) et le « decode » (génération de la réponse, plus sériel et gourmand en bande passante). Le Vera Rubin gère le lourd, le Groq 3 se charge du final, rapide. C’est ce qu’on appelle l’« inférence désagrégée », une technique que AWS et Cerebras exploitent aussi avec leur système combiné Tranium/CS-3.
Traduction pour les data centers : tu n’auras pas une seule puce miracle. Tu auras un mélange. Sid Sheth, le CEO de d-Matrix (un concurrent), le dit clairement : « Les systèmes gagnants combineront différents types de silicium et s’intégreront facilement dans les data centers existants aux côtés des GPU. » Nvidia, en intégrant le LPU à sa plateforme Vera Rubin, joue exactement cette carte : devenir l’épicier unique qui te vend à la fois la pièce maîtresse et les accessoires optimisés.
Alors, révolution ? Pas vraiment. C’est l’évolution logique d’un marché qui murit. On passe de la course à la taille des modèles à l’optimisation de leur déploiement. Nvidia, avec son Groq 3, ne fait que sécuriser son territoire face à une myriade de petits challengers et à des géants comme AWS. Leur force ? Une plateforme intégrée, une production de masse annoncée (« Nous sommes en production de volume maintenant », a dit Huang), et une marque qui rassure les CFO.
Reste à voir si cette puce dédiée tient ses promesses en conditions réelles, hors des benchmarks soigneusement choisis. Et si le prix de l’inférence va enfin baisser, ou si Nvidia va juste empiler les marges. Mais une chose est sûre : l’ère de l’inférence comme problème distinct est officiellement reconnue. Même si, pour beaucoup de startups dans le secteur, cette validation vient un peu trop tard.
Sources :
Comments are closed