ChatGPT Images 2.0 : OpenAI ajoute du raisonnement et du web search, mais garde son accent américain

Alors que tout le monde s’excitait sur les agents IA ou les promesses martiennes d’Elon, OpenAI a discrètement dégainé ChatGPT Images 2.0. Et cette mise à jour, elle pique un peu plus que les annonces habituelles. Pour une fois, on parle pas juste d’un finetuning ou d’une amélioration de résolution. Non, là, ils ont carrément greffé du raisonnement et de la recherche web à leur générateur d’images. Le résultat, c’est un modèle qui peut chercher des infos en ligne pour affiner sa production, pondre jusqu’à huit images cohérentes à partir d’une seule prompt, et surtout, enfin, générer du texte lisible dans les images. Oui, tu as bien lu : des mots qui ressemblent à des mots, pas à des hiéroglyphes générés par un robot bourré.

Mais avant de crier au miracle, respire. Parce que comme d’hab’, le diable est dans les détails – et dans les langues non anglaises. Wired et The Decoder pointent du doigt un truc qui pue : le modèle se débrouille comme un chef en anglais, mais dès que tu sors des scripts latins ou que tu lui balances une prompt en français, il a tendance à péter un câble. « Significativement mieux » pour les scripts non latins, selon The Decoder, mais « il lutte encore avec les langues autres que l’anglais », selon Wired. Traduction : si t’es créateur anglophone, t’as peut-être trouvé ton nouveau joujou. Si tu bosses en japonais ou en arabe, prépare-toi à quelques surprises graphiques douteuses.

Et puis, il y a cette histoire de « thinking capabilities ». OpenAI annonce fièrement que le modèle peut rechercher sur le web pour créer des images plus « sophistiquées ». The Verge en parle comme d’une nouveauté qui permet de tirer des infos du net. Cool, sauf que ça pose la question de la dépendance aux sources en ligne – et de la fiabilité de ces mêmes sources. Tu veux une image d’un événement récent ? Il va aller chercher des infos, peut-être obsolètes ou carrément fausses. La précision promise par ZDNet, elle est conditionnelle à ce que le web dit vrai. Et on sait tous que le web, c’est un peu le far west des infos.

Les autres améliorations, elles, sont plus classiques mais pas dégueu : meilleure capacité à suivre les instructions, rendu détaillé des éléments, styles divers, ratios d’aspect variés. Economic Times et TechCrunch en font des tonnes sur la « puissance » et l’« évolution », mais bon, c’est leur job de faire du buzz. En vrai, c’est un pas en avant solide, surtout pour le texte – un point faible historique des générateurs d’images. The Decoder parle même de « breakthrough » qui pourrait « fondamentalement remodeler la génération graphique ». Un peu fort, peut-être, mais quand tu vois les précédents modèles qui écrivaient « appole » au lieu de « apple », tu comprends l’enthousiasme.

Alors, révolution ou itération bien emballée ? Un peu des deux. OpenAI joue sa carte « on améliore sans faire de bruit » cette fois, et c’est plutôt rafraîchissant après les annonces apocalyptiques de Sam Altman. Mais garde en tête : c’est toujours le même jeu. Ils ajoutent des features, boostent les performances, et espèrent que tu oublieras les limitations – comme cette putain de barrière linguistique. Si tu créés en anglais, fonce. Sinon, attends peut-être la version 2.1, ou regarde du côté de la concurrence qui, elle aussi, bosse sur le sujet. Parce que dans la course aux images, personne n’a encore craqué le code du multilinguisme parfait. Et ça, c’est le vrai bottleneck.

En attendant, ChatGPT Images 2.0 montre qu’OpenAI sait encore innover sans juste promettre la lune. Mais comme toujours, lis les petites lignes – ou dans ce cas, teste les prompts dans ta langue.


Sources :

Categories

Comments are closed

Latest Comments

Aucun commentaire à afficher.