La jungle des vidéos IA et pourquoi les benchmarks ne mentent pas (toujours)

Tu vois passer des vidéos d’animaux 3D générées par IA sur TikTok, tu te dis « Wow, l’avenir est là ». Puis tu lis un papier de recherche qui te dit que ces mêmes systèmes se plantent sur les détails fins, et tu te demandes qui a raison. Les deux ont raison, et c’est ça le problème.

Un groupe de chercheurs vient de publier AVGen-Bench, un benchmark pour évaluer la génération audio-vidéo à partir de texte. Leur constat, c’est que les modèles actuels sont bons pour faire joli, mais dès qu’il s’agit de suivre un prompt précis—genre « un chien qui aboie en secouant la tête vers la gauche »—c’est le bordel. Ils combinent des modèles spécialisés et des MLLMs pour noter tout, de la qualité perçue à la sémantique fine. Le résultat, c’est un fossé « prononcé » entre l’esthétique et la justesse. Traduction : tes vidéos TikTok ont l’air pro, mais si tu regardes de près, le chat miaule comme un oiseau.

Pendant ce temps, sur Hacker News, un créateur avec 650k abonnés explique qu’il génère des histoires courtes d’animaux 3D. Son constat à lui, c’est que Gemini Nano Banana est roi pour les images, Veo3 est un bon choix pour les vidéos, Sora2 est « mort », et les modèles chinois comme Seedance 2.0 sont en train de tout bouffer. Il parle de « moment GPT » pour la vidéo. Aucune mention de benchmarks, de sémantique fine ou de fossés prononcés. Juste du reach et des followers.

La dissonance est parfaite. La recherche académique met le doigt sur les limites techniques avec une précision chirurgicale. Pendant ce temps, sur le terrain, les créateurs s’en tamponnent et utilisent ce qui fonctionne—même imparfait—pour produire du contenu qui cartonne. Les chercheurs testent avec 11 catégories réalistes ; les créateurs testent avec « est-ce que ça fait buzz ».

C’est le vieux débat entre la pureté technique et l’utilité pratique. Les benchmarks comme AVGen-Bench sont cruciaux—ils évitent que l’industrie ne se contente de jolis rendus superficiels. Mais si un modèle comme Seedance 2.0 permet à quelqu’un de bâtir une audience de 650k personnes, est-ce que ses défauts sémantiques importent vraiment ? Pour le chercheur, oui. Pour le créateur, non. Pour l’utilisateur final qui scroll, encore moins.

Le vrai enjeu, c’est que cette course à la vidéo IA ressemble de plus en plus à celle des LLMs : tout le monde annonce des avancées, mais les évaluations indépendantes révèlent des failles béantes. Les modèles chinois montent en puissance, les géants US tentent de suivre, et les chercheurs crient dans le désert que la qualité jointe audio-vidéo est une blague. Pendant ce temps, sur TikTok, les animaux 3D dansent.

Les deux camps ont raison. Les benchmarks nous rappellent qu’on est loin de la perfection—et c’est vital pour éviter la hype aveugle. Les créateurs nous montrent que l’imperfection n’empêche pas l’impact. Reste à voir qui, des chercheurs ou des ingénieurs, va combler ce fossé en premier. En attendant, si tu veux faire du viral, suis le créateur. Si tu veux comprendre pourquoi ça merde parfois, lis le papier.


Sources :

Categories

Comments are closed

Latest Comments

Aucun commentaire à afficher.