Le casse-tête de l’entraînement IA, ou quand les dictionnaires attaquent les chatbots

Tu pensais que la guerre des données était un concept abstrait réservé aux universitaires et aux avocats spécialisés ? Détrompe-toi. Cette semaine, on a droit à un double coup de poing qui rappelle que la soupe dans laquelle baignent nos IA, elle est faite de mots volés, ou du moins très mal payés. D’un côté, Jack Conte, le patron de Patreon, balance sans détour : l’argument du fair use brandi par les géants de l’IA pour justifier l’aspiration massive de contenus créatifs, c’est du vent. De l’autre, Merriam-Webster, le dictionnaire que t’as sûrement consulté pour épater tes profs, traîne ChatGPT devant les tribunaux. L’accusation ? Avoir pompé ses définitions pour entraîner ses modèles sans demander la permission. Ça commence à sentir le roussi pour les apprentis sorciers du texte génératif.

Conte, lui, il a un angle intéressant. Il pointe du doigt l’hypocrisie crasse des boîtes d’IA : elles clament haut et fort que scraper le web entier relève du fair use, un truc légal qui permet d’utiliser du contenu sans payer pour des buts éducatifs ou transformatifs. Mais dans le même temps, ces mêmes entreprises signent des accords de licence juteux avec les grands éditeurs comme Axel Springer ou The New York Times. Traduction : quand c’est des gros, on négocie. Quand c’est des créateurs indépendants, des artistes, des blogueurs, on se cache derrière une interprétation bancale de la loi pour ne pas sortir le portefeuille. « Bidons », c’est le mot qu’il utilise. Et il a pas tort. C’est un peu comme si tu disais à ton boulanger que ses croissants sont dans le domaine public parce qu’ils sont exposés en vitrine, mais que tu payes Carrefour pour les siens. La dissonance, elle est palpable.

Merriam-Webster, c’est une autre paire de manches. Attaquer ChatGPT, c’est viser le symbole même de cette révolution textuelle. Le dictionnaire, c’est la base, le socle sur lequel repose une partie de la compréhension linguistique des IA. Si même les définitions, ces bouts de savoir collectif méticuleusement compilés, sont aspirés sans compensation, alors tout est à prendre. Le procès pourrait devenir un cas d’école. Imagine : un modèle entraîné sur des données potentiellement piratées, qui génère ensuite du contenu en compétition directe avec les sources originales. C’est le serpent qui se mord la queue, avec des avocats en costard cravate pour arbitrer.

Et pendant ce temps, où sont les Sam Altman et les Dario Amodei ? Ils font ce qu’ils savent faire de mieux : lèvent des milliards, promettent l’apocalypse ou la sécurité, et ignorent superbement les petits détails comme ‘payer les gens dont on vole le travail’. OpenAI, avec ses 12 milliards de pertes par trimestre, pourrait peut-être commencer par régler ses factures au lieu de fantasmer sur la singularité. Anthropic, si soucieux de l’alignement éthique, pourrait s’aligner sur un principe simple : tu utilises, tu payes. Mais non, c’est plus facile de publier des papiers académiques sur les risques existentiels que de sortir un chèque à un artiste indépendant.

La vérité, c’est que tout ce cirque repose sur une exploitation à grande échelle. Les IA sont des parasites culturels de luxe : elles se nourrissent de tout ce qu’on produit, le recrachent en version dégradée, et espèrent qu’on ne remarque pas la supercherie. Conte a raison de gueuler. Merriam-Webster a raison de porter plainte. Et nous, on a raison de se demander combien de temps encore cette mascarade va durer. Parce qu’à force de piller les créateurs sans contrepartie, les géants de l’IA risquent de se retrouver avec des modèles entraînés sur… ben, sur rien du tout. Ou pire, sur leurs propres conneries, dans une boucle de rétroaction aussi absurde que tragique.

Quand ChatGPT te pond une définition ou qu’une IA génère une illustration ‘dans le style de’, rappelle-toi : derrière chaque mot, chaque pixel, il y a peut-être un humain qui n’a jamais vu un centime. Et ça, c’est pas du fair use, c’est du foutage de gueule.

Sources :

Le casse-tête de l’entraînement IA, ou quand les dictionnaires attaquent les chatbots

Latest Comments

Assistant MOGWAI

Assistant MOGWAI