Commentaires : Images et vidéos « dérivées »: Warner vise l’IA de Midjourney

Warner Bros. Discovery poursuit Midjourney en justice, l’accusant de reproduction illégale de ses œuvres.

Et encore un procès de plus à venir. Ce qui est hallucinant, c’est que des trucs de pillage illégaux comme Midjourney soient toujours en ligne. Ou l’IA au service de mafias sans scrupules.
Que font les autorités ? Surtout quand les preuves sont flagrantes.

1 « J'aime »

Les sociétés développant ces modèles d’IA sont bel et bien coupables d’avoir pompé absolument tout Internet. Elles auraient dû repartir sur une base saine en filtrant les contenus manifestement sous copyright.

Il y a des gens qui vont encore dire « oui mais l’IA ne fait que faire la même chose que les artistes en s’inspirant » ce n’est pas tout à fait vrai même si d’une certaine façon, les modèles n’incluent pas l’image d’origine mais une représentation mathématique de celle-ci. Un peu comme quand on a une représentation mentale d’une image et qu’on sait la reproduire en dessinant.

Mais la grande différence est qu’un artiste qui sait dessiner Mickey à la perfection sait qu’il ne peut pas le faire et surtout en faire du commerce… L’IA non. On est plus dans la logique du fan-art (toléré dans une certaine mesure) mais dans la reproduction de masse de contenus protégés par le droit d’auteur ici.

1 « J'aime »

Si tout exploitation commerciale d’un produit de l’IA était logiquement interdite (si tenté que la mise en place d’un tel contrôle fût possible, hors à rendre en premier lieu la commercialisation d’un abonnement payant à une IA générative interdite ce qui mettrait fin à cette jungle), le problème serait réglé. Car le moteur premier et sinon unique de ces IA, c’est à terme de produire des mega-tonnes de cash (c’est nullement de se mettre au service de la société, usage qu’on pourrait, et qu’on fera dans certains cas de l’IA ).
Toujours ce même schéma: du produit gratuit (à perte donc), mis à dispo en accéléré, prendre de vitesse la législation en atteignant très vite une masse considérables d’utilisateurs (futurs clients) et rendre le tout irrévocable. Et alors basculer sur le tout payant, l’usage n’est plus optionnel car profondément ancré (là le client gueule alors qu’il a profité à perte du service pendant en temps certains).
Mais de toutes façons, la messe est dite : le gagnant sera celui qui pourra se permettre de pomper le plus de données en toute impunité. Argumentaire définitif pour lâcher la bride à tous, car certains pays (dont un très gros) ne s’embarrasseront de rien. La boite de pandore est explosée.
Et comme le note Squeak, de toutes façons, de très très nombreuses personnes de défendre ces choses sur le refrain que l’oeuvre n’est littéralement pas dans le modèle (fait; mais étrangement, elle peut la recracher ou presque).

C’est un peu tricky cette histoire. L’ia ne fait que reproduire ce que demande l’utilisateur, en toute logique c’est l’utilisateur qui devrait être poursuivi et non l’outil ou l’entreprise qui a créé l’outil.
Après tout dans la musique quand on fait un procès pour plagiat on n’engage pas de poursuite à Roland, Yamaha ou Korg sous prétexte que le morceau a été enregistré sur ces instruments.

Commençons d’abord par le plus gros malentendu à savoir l’idée que l’IA “vole” ou “copie” directement les œuvres. C’est techniquement faux, et les études le prouvent. Les modèles de diffusion latente, comme ceux qui alimentent Midjourney ou DALL-E, fonctionnent dans un espace conceptuel compressé . Concrètement, ils réduisent une image de 512x512 pixels à une représentation latente de 64x64 et cette compression sémantique élimine tous les détails pour ne garder que les concepts abstraits.

L’équipe de Xiangming Gu a démontré que la mémorisation directe ne survient que dans des conditions exceptionnelles comme des datasets ridiculement petits, de la duplication massive des mêmes données, ou des prompts agissant comme des “clés” ultra-spécifiques. Dans l’usage normal, avec les milliards d’images d’entraînement actuels, cette mémorisation devient statistiquement négligeable. Plus fascinant encore, l’augmentation de la taille des datasets réduit paradoxalement la mémorisation, créant une fenêtre de généralisation plus large.

Les études de 2024 sur les mécanismes d’attention croisée montrent également des patterns complètement dispersés lors d’une génération normale. L’IA ne stocke pas vos œuvres dans un coin de sa mémoire pour les ressortir telles quelles, non… elle apprend des concepts, des styles, des associations visuelles, exactement comme un artiste humain qui s’inspire de ce qu’il a vu.

1 « J'aime »

Jouer à ce point sur les mots, ce n’est même plus de la mauvaise foi.

Ce n’est pas tant le principe qui est critiqué, c’est plutôt l’utilisation qui en est faite et outrepasser les droits d’auteur et dont certains cherchent des prétextes ou interprétations personnelles pour défendre l’usage de ces outils (qui sont certes puissants et peuvent effectivement aider à créer des choses totalement inédites). Même si tu connais en détail comment fonctionnent ces algorithmes et comment on a entraîné des IA, tu sais que tu ne peux pas faire n’importe quoi avec.

Or comme dans le cas de l’article ici, beaucoup de modèles d’IA ont été entraînés en ayant été se servir partout sans demander si c’était autorisé ou non. Blogs, pages perso, galeries Flickr, DeviantArt, ArtStation et j’en passe… Il y a même des modèles sur CivitAI qui ont été entraîné avec les films de Disney et ne s’en cachent même pas.

Tu utilises l’IA pour créer quelque chose? Pas de souci avec ça. Mais tu dois aussi veiller dans ce cas à ce que le résultat produit n’enfreint pas le droit d’auteur. Exemple : tu demandes « un chien en 3D », et si le résultat fourni se rapprochait trop de ce qu’un artiste a déjà créé? Tu dirais sans doute comme excuse « je n’y suis pour rien c’est l’IA qui a fait ça »? Pourquoi l’a-t-elle fait? Car elle a eu accès à des images que l’auteur d’origine n’avait peut-être pas l’intention de laisser accessibles comme ça. Dans un monde idéal, il aurait fallu tenter de faire ça plus proprement c’est tout. Il y a déjà eu des cas où des images générés par IA comportaient en bas une sorte de petit charabia comme une signature. Pourquoi?