Wikipedia, la dernière ligne de défense contre le slop IA

Tout le monde parle de la course aux modèles. OpenAI, Anthropic, Google, Meta, tous en train de surenchérir sur le dernier benchmark, la dernière levée de fonds, le dernier modèle qui promet de changer le monde. Mais pendant que ces boîtes se gavent de données pour nourrir leurs IA, une guerre silencieuse se joue ailleurs. Sur Wikipédia. Oui, l’encyclopédie que tout le monde dit mourante. Eh bien, elle est en train de devenir le dernier rempart contre ce que les bénévoles appellent le « slop IA » : la merde générée par les IA qui pollue le web et, en retour, empoisonne les futures générations de modèles.

Le concept est simple, et terrifiant. Tu as des IA qui génèrent du contenu à la chaîne — articles de blog, fausses recettes, tutoriels inventés, biographies approximatives. Ce contenu, souvent médiocre ou carrément faux, finit par atterrir sur le web. Et quand les prochaines IA s’entraînent sur le web, elles bouffent leurs propres déchets. C’est comme si tu recyclais tes ordures pour en faire ton prochain repas. Sauf que là, on parle de la connaissance humaine.

Et c’est là que Wikipédia entre en scène. Sur le site Rest of World, un article décrit comment des bénévoles, surtout dans les langues régionales, traquent et corrigent le slop IA. Parce que oui, les gros modèles anglocentriques ont leurs garde-fous (relatifs), mais pour les langues moins représentées, c’est la foire d’empoigne. Un type en Indonésie ou au Nigeria peut générer des milliers d’articles faux avec GPT-4, les balancer sur des sites locaux, et personne ne vérifie. Sauf les wikipédiens.

Ces bénévoles, ils font du travail de fourmi. Ils repèrent des patterns : un style trop uniforme, des dates qui collent pas, des sources bidons. Ils nettoient, ils corrigent, ils protègent les pages. C’est une bataille sans fin, parce que l’IA génère plus vite qu’ils ne peuvent vérifier. Mais sans eux, Wikipédia, l’une des dernières sources de données relativement propres, deviendrait une décharge. Et quand Wikipédia devient une décharge, tout le web suit.

La beauté du truc, c’est que ces gens le font gratuitement. Pas de levée de fonds à 10 milliards, pas de comité éthique décoratif, pas de papier académique de 20 000 mots. Juste des mecs et des meufs qui passent leurs soirées à protéger un bien commun. Pendant que Sam Altman pleure sur les risques existentiels et lève des milliards pour les accélérer, eux, ils nettoient les dégâts.

Et tu sais quoi ? C’est peut-être la seule réponse viable à long terme. Parce que croire que les boîtes d’IA vont s’autoréguler, c’est comme croire qu’un dealer va te conseiller d’arrêter la coke. Anthropic publie des évaluations de sécurité qu’elle ignore, Google fait du benchmarketing, Musk génère de la merde et répond par des emojis. Ils ont tous un intérêt financier à accélérer, pas à nettoyer.

Quand on te parlera de la « révolution IA », souviens-toi que derrière les grands discours, il y a une armée de bénévoles qui essuie les plâtres. Sans eux, l’IA finirait par s’étouffer avec ses propres conneries. Et ça, c’est pas une prédiction apocalyptique de Sam Altman, c’est une réalité technique. Les modèles s’entraînent sur le web. Si le web devient un cloaque, les modèles deviennent des cloaques. Simple.

Alors merci, les wikipédiens. Vous êtes les héros méconnus de cette putain de course. Et peut-être les seuls à vraiment comprendre que, sans garde-fous humains, l’IA n’est qu’une boucle de rétroaction merdique qui tourne à vide.


Sources :

Categories

Comments are closed

Latest Comments

Aucun commentaire à afficher.