Les IA génératives sont-elles le fruit du plus grand piratage d’œuvres d’art de l’histoire ?

C’est une plainte d’une importance capitale pour l’avenir des services de génération d’images. Trois célèbres dessinatrices s’associent à une class action visant Stability AI, créateur de Stable Diffusion, Midjourney, mais aussi la plate-forme DeviantArt. Leur projet : prouver que les IA génératives fonctionnent grâce à des millions d’œuvres piratées. Et obtenir compensation.

Stable Diffusion est-il un « outil de collage du 21ème siècle qui viole les droits des artistes » ? Voilà en tout cas ce qu’estiment trois célèbres artistes féminines qui, ensemble, ont décidé d’initier une action de groupe à l’encontre de Stable Diffusion et Midjourney. Deux plates-formes très à la mode, qui permettent de générer de superbes illustrations à partir de quelques phrases renseignées par l’utilisateur. Le problème, selon les plaignantes ? Elles ont été entraînées et fonctionnent grâce à des millions d’œuvres, notamment les leurs, utilisées sans le consentement de leurs auteurs et autrices. Un gigantesque piratage, en somme, qui viendrait, en plus, concurrencer leur propre travail.

Sarah Andersen, Karla Ortiz et Kelly McKernan, les trois plaignantes, sont loin d’être des inconnues. Andersen a acquis une notoriété importante avec sa BD en ligne Sarah’s Scribbles. Karla Ortiz, quant à elle, travaille pour de nombreux clients prestigieux, comme Ubisoft, HBO ou Marvel. Autant dire que leurs voix pèsent. Et que cette confrontation juridique pourrait avoir un énorme impact sur le marché naissant des IA génératives.

1/ As I learned more about how the deeply exploitative AI media models practices I realized there was no legal precedent to set this right. Let’s change that.
Read more about our class action lawsuit, including how to contact the firm here: https://t.co/yvX4YZMfrG

Des « copies non autorisées »

Que reprochent exactement les artistes à Stability AI (qui a créé Stable Diffusion), Midjourney mais aussi à DeviantArt, vénérable plate-forme pour artistes qui a récemment lancé un outil de création d’images basé sur Stable Diffusion ? Le site qui résume la plainte est clair à ce sujet : « Stable Diffusion contient des copies non autorisées de millions -et possiblement de milliards- d’images soumises au copyright. Ces copies ont été réalisées sans le consentement des artistes ». Le même reproche est fait à Midjourney.

Il va même jusqu’à comparer la base d’images LAION, utilisée pour entraîner Stable Diffusion et riche de 5 milliards d’images, au plus grand braquage d’œuvres d’art de l’histoire : « Même en supposant des dommages de 1 $ par image, la valeur de ce détournement serait d’environ 5 milliards de dollars. À titre de comparaison, le plus grand vol d’art jamais réalisé a été le vol, en 1990, de 13 œuvres d’art du musée Isabella Stewart Gardner, d’une valeur actuelle estimée à 500 millions de dollars. »

Ne pas confondre « copie » et « entraînement »

Mais comme toujours avec les technologies émergentes, les choses sont loin d’être aussi simples. Certes, la capacité de ces outils à générer de nouvelles images est le fruit d’une analyse de milliards de photos, d’illustrations, de peintures piochées sur la Toile. Et ils ont été bel et bien été « entraînés » avec des images qui n’étaient pas toutes libres de droit, loin de là. Il suffit de chercher, dans un catalogue qui ne recense pourtant qu’une petite partie de la base LAION, les noms de Kalia Ortiz ou de Kelly McKernan pour découvrir certaines de leurs œuvres.

Mais est-ce suffisant pour dire qu’il y a copie illégale, comme l’indique la plainte, et que les images générées sont « dérivées » de ces copies ? Ce n’est pas l’avis de nombreux experts en intelligence artificielle, qui estiment que cette plainte témoigne d’une certaine méconnaissance du fonctionnement des technologies de machine learning. Et qu’elle confond, pour résumer, « entraînement » et « copie ».

Les modèles dits « de diffusion » visés ici n’ont en effet copié aucune image. La base LAION n’en héberge même pas : elle pointe simplement vers des sites Web qui les contiennent. Ainsi, la plainte affirme que Stable Diffusion enregistre des « copies compressées des images d’entraînement » ce qui est faux. Et même impossible, tant le stockage nécessaire serait énorme. « Stable Diffusion ne stocke pas d’image et ne s’appuie pas sur une image existante pour en créer une autre. Il génère un visuel grâce à l’apprentissage qu’il a eu et des “paramètres” et “liaisons” qu’il en a fait » explique Olivier Martinez, Product Manager et fondateur de 255hex.ai.

On comprend toutefois la colère qui anime ces artistes, qui peuvent légitimement se sentir lésées. Et les erreurs techniques contenues dans la plainte n’interdisent pas de s’interroger sur cette affaire qui demeure éminemment complexe. Elle questionne des notions de copyright et de droit d’auteur une fois encore complètement dépassées par une technologie qui chamboule tout.

The lawsuit against #stablediffusion and #midjourney seems to assume that there's copyright infringement if you blend images that originate from a copyrighted source. Blending seems to be transformative of original content and thus covered as fair use. https://t.co/w194YI4jaT

Au-delà de l’aspect technique, certains critiques de la plainte estiment qu’une IA a le droit de s’inspirer de l’œuvre d’un artiste, dans le cadre du « fair use », qui autorise aux États-Unis la transformation d’un contenu original soumis au copyright.

Et ce n’est qu’un début. On a appris aujourd’hui l’existence d’une autre affaire qui pourrait faire grand bruit. Getty Images, l’une des plus grandes banque d’images du monde, menace aussi d’assigner en justice Stability AI. Et l’accuse d’avoir « copié et traité illégalement des millions d’images protégées par le droit d’auteur et les métadonnées associées détenues ou représentées par Getty Images ».