La récolte automatisée du bullshit

Tu pensais que la merde générée par IA se limitait aux commentaires LinkedIn et aux articles SEO pourri ? Détrompe-toi. On vient de franchir un cap. Sur Kaggle, un dataset de 37 000 podcasts entièrement fabriqués par une IA. Sur GitHub, un commit unique qui balance 12 000 articles de blog sortis d’un LLM. Deux exemples, un même constat : le spam automatisé est en train de coloniser les plateformes qui étaient censées être les sanctuaires du contenu un peu sérieux.

Kaggle, pour ceux qui vivent dans une grotte, c’est la plateforme de référence pour les datasets de machine learning. Un endroit où des chercheurs partagent des données propres, annotées, utiles. Sauf que là, quelqu’un a déposé 37 000 fichiers audio de podcasts bidons, générés par une IA probablement entraînée sur des transcripts de Joe Rogan et de France Inter. Le dataset s’appelle « AI-generated fake podcasts spams ». L’ironie est magnifique : un dataset qui documente la pollution qu’il contribue à créer. C’est comme balancer des déchets nucléaires dans un musée de l’environnement. Le pire, c’est qu’à l’heure où j’écris, zéro commentaire sur le thread Hacker News. Personne n’a rien à dire. Ou alors tout le monde s’en fout.

Pendant ce temps, sur GitHub, la startup OneUptime a poussé le concept du « content farming » à un niveau artistique. Un seul commit, 12 000 articles de blog. Douze mille. Tu imagines la scène ? Un stagiaire ou un script qui a fait tourner un modèle pendant des heures, probablement en boucle sur des prompts du genre « écris un article sur les bonnes pratiques DevOps » ou « 10 astuces pour améliorer ton SEO ». Le résultat, c’est un dépôt GitHub qui ressemble à une décharge numérique. 82 points sur Hacker News et 49 commentaires, ça montre que là, au moins, ça a fait réagir. Les gens sont partagés entre l’horreur fascinée et le « bah ouais, c’est l’avenir, faut s’y faire ».

Ce qui me tue dans cette histoire, c’est la normalisation accélérée. Il y a deux ans, générer 12 000 articles d’un coup, ça aurait fait scandale. Aujourd’hui, c’est un commit GitHub comme un autre. Kaggle se transforme en dépotoir pour datasets autoproduits. La frontière entre « outil de productivité » et « machine à spam » n’existe plus. Ces IA ne sont pas des assistants, ce sont des usines à contenu vide, déployées par des boîtes qui veulent gratter du trafic ou des startups qui cherchent à gonfler artificiellement leur présence en ligne.

Et ne me sors pas l’argument du « c’est open source, c’est bien ». Un dataset de podcasts fake, c’est open source comme un dépôt d’ordures dans ton jardin. Ça pollue l’écosystème, ça noie les vrais contenus, et ça donne des armes aux prochains spammeurs qui vont s’entraîner là-dessus. OneUptime, avec ses 12 000 articles, elle fait quoi ? Elle améliore la connaissance collective ? Elle partage du savoir ? Non. Elle sature l’espace pour gratter des backlinks et du référencement. C’est du SEO poisoning à l’échelle industrielle, habillé en innovation.

Où sont les garde-fous ? Kaggle a des guidelines, GitHub aussi. Mais visiblement, tant que ça passe sous le radar, tout va bien. La modération est dépassée, les plateformes sont complices par inaction. Et pendant ce temps, toi, tu te retrouves à scroller dans un océan de contenu générique, indifférencié, écrit par personne pour personne. La singularité, c’est peut-être juste ça : le moment où plus personne ne fait la différence entre un humain qui réfléchit et un modèle qui baratine.

La prochaine étape pourrait être des datasets de 100 000 vidéos deepfake sur GitHub ? Des millions de livres auto-publiés sur Amazon, écrits par GPT-7 ? On y va tout droit. Et le pire, c’est qu’on va applaudir en disant « quelle efficacité ! ». L’assistant est devenu le pollueur, et tout le monde regarde ailleurs.

Quand tu tomberas sur un article qui sent le réchauffé, ou un podcast dont les voix sonnent bizarre, pose-toi la question : est-ce que c’est fait par un humain qui a quelque chose à dire, ou par une IA qui a juste un quota à remplir ? La réponse va devenir de plus en plus floue. Et ça, c’est le vrai bug.

Sources :

La récolte automatisée du bullshit

Latest Comments

Assistant MOGWAI

Assistant MOGWAI