ChatGPT avait un problème de gobelins et voici pourquoi c’est une leçon pour tout le monde

Le pire tic d’une IA, ce n’est pas d’inventer des sources ou de te sortir des « En tant qu’assistant linguistique ». Depuis quelques semaines, ChatGPT développait une obsession discrète mais tenace pour les gobelins. Et pas qu’eux : gremlins, ratons laveurs, trolls, ogres, pigeons — toute la ménagerie fantastique s’invitait dans ses réponses.

Un hoquet statistique devenu phénomène viral

C’est un post sur Reddit qui a mis le feu aux poudres. Un utilisateur découvre dans les instructions système de Codex, l’outil de codage d’OpenAI, une ligne surréaliste : « Ne parle jamais de gobelins, gremlins, ratons laveurs, trolls, ogres, pigeons ou autres animaux ou créatures, sauf si c’est absolument et sans ambiguïté pertinent pour la requête de l’utilisateur. »

Forcément, ça a buzzé. Certains y ont vu un coup de com’ — parce que quoi de mieux que des gobelins pour faire parler de toi ? Mais OpenAI a rapidement confirmé : c’était un vrai bug, pas un gimmick marketing. Dans un blog post publié jeudi, la boîte détaille comment une simple personnalité « Nerd », censée rendre les réponses plus savantes et décalées, a dégénéré en invasion de créatures mythologiques.

Le nerdy était trop fort

Tout commence avec GPT-5.1, sorti en novembre 2025. OpenAI propose des « personnalités » pour ChatGPT, dont une option « Nerdy » qui doit incarner un mentor geek, joueur avec les mots, amoureux de la connaissance. Le prompt original dit : « Vous devez saper la prétention par un usage ludique du langage. Le monde est étrange, et sa strangeté doit être reconnue, analysée et appréciée. »

Dans leur processus de renforcement par récompense (RLHF), les annotateurs ont commencé à sur-récompenser les métaphores impliquant des créatures fantastiques — un « petit gobelin » pour désigner un bug, un « gremlin » pour un problème technique. C’était drôle, original, ça correspondait à l’esprit nerdy. Sauf que les modèles suivants, entraînés sur ces données, ont généralisé le tic à tous les contextes.

Les chiffres parlent

OpenAI a quantifié le phénomène :

  • Les mentions de « gobelin » ont bondi de 175% après le lancement de GPT-5.1.
  • Les mentions de « gremlin » ont augmenté de 52%.
  • La personnalité Nerdy était responsable de 66,7% de toutes les mentions de gobelins dans ChatGPT.

Même après avoir désactivé la personnalité Nerdy en mars, le mal était fait. Le renforcement avait imprégné les couches profondes du modèle. Résultat : GPT-5.5, utilisé dans Codex, continuait à gobeliner allègrement. La seule solution a été d’ajouter une instruction explicite dans le system prompt — comme on met une muselière à un chien qui mord.

Le vrai problème, c’est la scalabilité des tics

Ce qui est fascinant (et flippant), c’est la rapidité avec laquelle un comportement de niche peut contaminer tout un modèle. OpenAI l’admet : une fois qu’un style est récompensé dans un contexte, l’apprentissage par renforcement peut le propager ailleurs, surtout si les sorties sont réutilisées en supervised fine-tuning ou en preference data.

« Un seul ‘petit gobelin’ dans une réponse peut être inoffensif, voire charmant », écrit OpenAI. Mais quand ça devient systématique, ça casse la confiance des utilisateurs, et ça oblige à des rustines manuelles qui sentent le bricolage.

Quand les IA prennent goût aux mythes

Ce n’est pas la première fois qu’un modèle développe un tic absurde. On se souvient de Google AI en 2024 qui recommandait de manger des pierres et de la colle. Mais ici, le mécanisme est plus pernicieux : ce n’est pas une hallucination due à des données d’entraînement foireuses, c’est un effet secondaire du renforcement positif mal calibré.

Des chercheurs d’Oxford ont récemment montré que les modèles fine-tunés pour être plus chaleureux et amicaux subissent un compromis de précision : plus ils sont sympas, plus ils se trompent ou confirment les croyances erronées des utilisateurs. Les gobelins, c’est juste la version fantasy de ce biais.

Ce qu’on peut en retenir

OpenAI a retiré la personnalité Nerdy, mis un filtre sur Codex, et promet de mieux surveiller ce genre de dérive. Mais l’histoire des gobelins est une métaphore parfaite du défi qui attend toute l’industrie : comment contrôler des modèles dont on ne comprend pas complètement le comportement émergent ?

« En fonction de qui vous demandez, les gobelins sont une bizarrerie charmante ou agaçante », conclut OpenAI. « Mais ils sont aussi un exemple puissant de la façon dont les signaux de récompense peuvent façonner le comportement d’un modèle de manière inattendue. »

Bref, si un jour ton ChatGPT te parle de ratons laveurs sans raison, ne panique pas. C’est juste une IA qui a appris à être trop créative. Et peut-être qu’au fond, un petit gobelin dans un océan de réponses fades, ce n’est pas si mal.

La cerise sur le gâteau : OpenAI a partagé un moyen de réactiver les gobelins si ça te manque. Après tout, qui n’aime pas un peu de chaos contrôlé ?


Sources :

Categories

Comments are closed

Latest Comments

Aucun commentaire à afficher.