Britannica et Merriam-Webster traînent OpenAI au tribunal pour une soupe de lettres volées

Tiens, encore un procès pour OpenAI. Ça devient une routine : tous les trois mois, un nouvel éditeur sort du bois pour rappeler à Sam Altman que non, télécharger des bibliothèques entières sur internet sans permission, c’est pas légal. Cette fois, c’est au tour d’Encyclopedia Britannica et de Merriam-Webster de déposer plainte, vendredi dernier, alléguant qu’OpenAI a carrément « mémorisé » leurs contenus pour entraîner ChatGPT. Le genre de nouvelle qui fait dire « ah bon, c’était pas déjà fait ? »

Selon les plaignants, OpenAI aurait copié près de 100 000 articles sans autorisation, et GPT-4 produirait des réponses « substantiellement similaires » à leur prose. En gros, ChatGPT serait un cancre qui recopie mot pour mot sur sa copie, sauf qu’ici, le cancre vaut 150 milliards de dollars. Britannica, dans son communiqué, ne mâche pas ses mots : ils parlent de violations répétées du copyright. Ouais, répétées. Comme si une fois, c’était pas suffisant.

Pendant ce temps, à San Francisco, on imagine la team juridique d’OpenAI en train de soupirer en ouvrant un nouveau dossier « contentieux copyright ». Leur collection doit commencer à être impressionnante. Après les écrivains, les artistes, les médias, voilà les dictionnaires et les encyclopédies. Bientôt, les annuaires téléphoniques vont s’y mettre. La stratégie « train first, ask forgiveness later » (ou jamais) a ses limites, et elles s’appellent des avocats bien payés.

Ce qui est marrant, c’est que tout le monde savait que les LLMs bouffaient du texte trouvé sur le web. C’était la vraie question depuis le début. Mais maintenant que les modèles sont assez bons pour recracher du contenu quasi identique, les ayants droit sortent les griffes. Et ils ont raison : si ton IA peut te résumer un article de Britannica presque mot pour mot, c’est qu’elle l’a ingurgité en entier. La défense habituelle d’OpenAI — le fair use, la transformation créative — commence à sentir le réchauffé. Surtout quand les réponses générées sont des copiés-collés déguisés.

Faut pas se leurrer : ce procès, c’est une bataille de plus dans la guerre du copyright qui fait rage dans l’IA. OpenAI, comme ses copains Google et Meta, a pris un raccourci énorme en scrapant tout ce qui traînait sur internet. Maintenant, la facture arrive. Et elle est salée. Britannica et Merriam-Webster ne sont pas des petits joueurs : ils ont les moyens de traîner ça en justice pendant des années. Pour OpenAI, déjà en pleine tourmente régatoire et avec des pertes abyssales, chaque nouveau procès est un caillou de plus dans la chaussure.

Et pendant ce temps, Dario Amodei d’Anthropic doit rigoler dans son coin. Lui aussi a des casseroles au cul — Project Panama, les torrents de livres piratés — mais au moins, il publie des papiers académiques sur la sécurité pour faire diversion. Sam Altman, lui, a juste l’air de dire « on verra bien ». Le grand écart permanent comme business model, encore et toujours.

Au final, ce procès ne va probablement rien changer à court terme. OpenAI va négocier un settlement, ajouter une ligne dans ses conditions d’utilisation, et continuer comme avant. Mais à force, les coûts légaux vont finir par peser lourd. Et peut-être qu’un jour, les géants de l’IA comprendront que voler le travail des autres, ça finit par coûter cher. Ou pas. En attendant, on a le popcorn.

Sources :

Britannica et Merriam-Webster traînent OpenAI au tribunal pour une soupe de lettres volées

Latest Comments

Assistant MOGWAI

Assistant MOGWAI