La diffusion discrète fait son grand retour et personne n’a vu venir le twist

Tu connais la diffusion. Ces modèles qui ont révolutionné la génération d’images avec Stable Diffusion et compagnie, où tu pars d’un bruit complet et tu débruites progressivement pour obtenir une œuvre d’art (ou un truc glauque avec six doigts). Eh bien, une équipe de chercheurs vient de déposer un papier sur arXiv qui pourrait bien changer la donne, et une startup nommée Inception a déjà sauté dessus pour lancer Mercury 2. Résultat : la diffusion discrète pour le langage, c’est pas juste un effet de mode, c’est une vraie menace pour l’hégémonie des modèles autoregressifs.

Le papier qui remet les pendules à l’heure

Justin Deschenaux, Caglar Gulcehre et Subham Sekhar Sahoo ont pondu « The Diffusion Duality, Chapter II: Ψ-Samplers and Efficient Curriculum ». En français : « Comment faire de la diffusion discrète sans se planter après dix étapes ». Parce que oui, les modèles de diffusion uniform-state (c’est-à-dire où chaque token peut être remplacé par n’importe quel autre à chaque étape) sont super pour la génération en peu d’étapes et le contrôle précis. Ils ont cette capacité à s’auto-corriger, un peu comme un écrivain qui réécrit son paragraphe entier plutôt que de juste ajouter des mots à la fin. Mais jusqu’ici, dès que tu augmentais le nombre d’étapes de sampling, la qualité plafonnait avec les méthodes ancestrales classiques. C’était comme si ton moteur surchauffait après avoir roulé trop longtemps.

Leur innovation ? Une famille de samplers Predictor-Corrector (PC) qui généralise les méthodes existantes et s’applique à n’importe quel processus de bruit. En clair, ils ont trouvé comment faire en sorte que la qualité continue de s’améliorer avec plus d’étapes, au lieu de stagner. Les résultats parlent d’eux-mêmes : sur OpenWebText, ils obtiennent une perplexité générative plus basse à entropie unigramme équivalente. Sur CIFAR10, meilleurs scores FID/IS. Mais le plus intéressant, c’est sur le langage. La diffusion discrète, avec leurs samplers, devient enfin compétitive sur des tâches de modélisation linguistique. Et ça, c’est qui change la donne.

Inception, la startup qui a flairé le bon coup

Pendant que tout le monde s’excitait sur les derniers GPT-7 ou Gemini Ultra, Inception a sorti Mercury 2, « le premier modèle de raisonnement basé sur la diffusion ». Leur pitch ? Au lieu de générer du texte mot par mot comme les modèles autoregressifs (ce bon vieux GPT et ses copains), Mercury 2 raffine des passages entiers en parallèle. Le résultat, c’est plus de cinq fois plus rapide. Et surtout, une capacité de raisonnement améliorée grâce à cette approche de raffinement global.

Le timing est parfait. Le papier d’arXiv date du 24 février 2026, et l’annonce d’Inception est du 24 février 2026 aussi. Coïncidence ? Pas du tout. Inception a clairement bossé en coulisses avec ces avancées, ou au moins a suivi de près les recherches. Leur modèle n’est pas juste un finetuning de Llama avec une jolie interface, c’est une réelle innovation architecturale qui tire parti des derniers développements académiques.

Pourquoi c’est important ?

Parce que l’autoregressif, aussi dominant soit-il, a ses limites. Générer séquentiellement, c’est lent, et ça peut mener à des erreurs en cascade. La diffusion, avec son approche de raffinement parallèle, permet une meilleure cohérence globale et une capacité d’auto-correction. Imagine écrire un essai : avec un modèle autoregressif, tu écris phrase par phrase, et si tu te plantes au début, tout le reste est foutu. Avec la diffusion, tu écris un brouillon complet, puis tu l’améliores en plusieurs passes, en ajustant l’ensemble à chaque fois. C’est plus proche de la façon dont un humain travaille.

Et les implications sont énormes. Pour le raisonnement, la planification, la génération de code, tout ce qui nécessite de la cohérence à long terme. Les modèles autoregressifs ont beau être bons, ils butent sur ces tâches. La diffusion discrète, avec les bons samplers, pourrait bien leur damer le pion.

Le petit bémol (parce qu’il y en a toujours un)

Inception est une startup. Leur annonce est belle, mais on n’a pas encore de benchmarks indépendants sur Mercury 2. Est-ce que ça tient la route en conditions réelles, ou c’est juste une démo bien léchée ? L’histoire récente est pleine de startups qui promettent la lune et livrent une boule de pétanque. Et le papier d’arXiv, aussi solide soit-il, n’en est qu’au stade de la prépublication. Il faut voir si ça passe la peer-review et si la communauté adopte ces méthodes.

Mais bon, même avec ces réserves, une chose est claire : la diffusion discrète pour le langage est de retour, et cette fois, elle a les armes pour se battre. Les géants comme OpenAI, Google et Meta vont devoir réagir, parce que si Inception (ou d’autres) réussissent à industrialiser cette approche, ça pourrait bien redistribuer les cartes. Et ça, c’est toujours bon à prendre dans un secteur qui commence à sentir le roussi de l’oligopole.

Alors, la diffusion va-t-elle tuer l’autoregressif ? Pas tout de suite. Mais elle lui a clairement mis un coup de pression. Et dans cette course aux armements, ce qui est clair : les chercheurs qui bossent sur des alternatives aux architectures dominantes méritent qu’on leur prête attention. Parce que parfois, les révolutions viennent de là où on ne les attend pas.

Sources :

La diffusion discrète fait son grand retour et personne n’a vu venir le twist

Latest Comments

Assistant MOGWAI

Assistant MOGWAI