Oui, l’opacité de l’origine des datas est un vrai problème, mais complexe par les mécanismes utilisés. Souvent ce sont des robots qui ratissent au plus large. Ils pourraient dire « tout ce qui traîne sur internet »…
C’est bien plus compliqué que ça. Tout créateur devrait pouvoir spécifier si sont travail peut être utiliser pour l’entraînement des IAs, un peu comme quand il est spécifié qu’une oeuvre ne peut être diffusée ou utilisée commercialement ou pour de la formation.
Mais Manet ou Muchat (artistes au pif) ont-ils interdit aux autres artistes de s’inspirer de leur style identifiable et repris à n’en plus finir…
On en à un tournant de la technologie qu’il faut surtout éclaircir moralement et juridiquement, mais pas forcément interdire.
Il est très simple de ne sélectionner que des données autorisées, mais ça limite la qualité du résultat. Même Google image, par exemple, indique si une image est libre ou sous copyright. Mais il existe plusieurs types de données libres, ça n’autorise pas nécessairement l’usage par des IA. La vérité, c’est que si ces IA respectaient la loi, elles ne seraient plus rentables.
Trop facile de voler et de dire après, « pas vu, pas pris », et si on se fait prendre, ben « tant pis pour les personnes volées, mais on garde tout ». Des sanctions à la hauteur doivent tomber. Amendes records et interdiction. Trop d’IA génératives fonctionnent de façon opaque et mafieuse, elles doivent être interdites et les coupables sanctionnés.
La question du droit d’auteur se posait déjà avec l’échantillonnage de boucles sonores, le sampling dans le hip-hop notamment. On se souvient de la polémique en 1998 autour d’un sample de harpe celtique d’Alan Stivell utilisé par le groupe Manau pour sa reprise rap d’un traditionnel breton (Tri Martolod). Aux Etats-Unis, le fils du compositeur et chanteur de soul Isaac Hayes ne cesse de dénoncer l’utilisation sauvage faite par certains groupes de rap des samples prélevés sur les créations de son père.
Ce que je veux dire, c’est que pour le moment, tant que la loi n’est pas clair, l’apprentissage des IAs peut être considéré comme l’apprentissage humain. Une IA ne peut restituer exactement ce qu’elle a appris, ce n’est même pas une copie approximative, c’est vraiment une inspiration. Dès lors, on ne peut pas vraiment parler de vol.
L’ambiguïté sert bien sûr les créateurs des IAs, mais la protection des droits d’auteur ne s’applique pas. Pour reprendre mon exemple précédent, une école de peinture, mais aussi un style musical, un style de mode peut être utilisé (si ce n’est pas une copie bien sûr) sans autorisation, il y a des règles plus ou moins claires sur cette notion de copie. Les IAs doivent être régies par les mêmes règles, mais l’apprentissage aussi doit être encadré.
Il faut légiférer au plus vite et de manière globale, avec des règles de consentement tacite, ou même explicite pour tout oeuvre. Après, ça va être coton à mettre en place, les IAs utilisant TOUT pour leur entraînement, le moindre texte, image, son ou vidéo.
La loi est on ne peut plus claire concernant le droit d’auteur, mais aussi le droit à l’image. Tout le monde est concerné. Quand une IA s’entraine sur la photo de vos enfants pour mettre à disposition ses générateurs au service de n’importe qui, qui peut en faire n’importe quoi, il y a matière à agir. C’est encore plus flagrant pour le droit d’auteur. Quand une IA peut produire du contenu à la façon d’untel au style identifiable, voir l’imiter ou le plagier, le vol est manifeste. Hors IA, de telles pratiques tombent sous le coup de la loi qui est très claire. Même concernant le droit à la satire, la loi s’applique. Ne reste que le droit à la citation, mais ça ne concerne que de cours extraits avec l’obligation légale de citer ses sources.
L’IA n’est pas une source et elle doit citer ses sources, même si ce sont des bases de données. Ce que peu d’IA génératives font, car elles enfreignent diverses législations. La volonté européenne est de mettre en place des IA éthiques et conformes au droit. Il y a un grand ménage à faire.
Les entreprises d’IA (et d’autres avant), se croient au-dessus du droit. Ce sont des pratiques mafieuses. Il faut y mettre fin, et si nécessaire, renforcer notre arsenal législatif afin de mettre des garde-fous. C’est aussi une question de volonté politique et de temps, les autorités européennes (je pense que c’est à ce niveau que ça se joue) sont toujours longues à réagir, même si parfois, ça peut faire mal.
Ce que tu n’arrives pas à comprendre, c’est que l’entraînement n’est qu’un apprentissage. Le SEUL problème légal actuellement, c’est la restitution qui peut être trop proche des données d’origine et donc d’être un plagiat de tomber sous le coup de la loi.
MAIS pour le moment, rien n’interdit l’entraînement des IAs avec des données publiques, et le problème est là.
Et pour la citation des sources, c’est impossible techniquement (enfin pas pour le moment, aucune mémorisation dans le sens sauvegarde de méta data n’est faite) de retrouver les sources d’inspiration exacte via les poids.
Effectivement c’est un biais classique, on trouve ce que l’on fait est « normal », voir « super »…
Pour moi pas vraiment, tans que l’on ne tombe pas dans le plagiat. Ne pas respecter la volonté des artistes que leurs oeuvres ne servent pas l’entraînement de l’IA n’a pas de base juridique puisque l’on avait pas prévu le cas. On peut penser que c’est injuste, immoral, être choqué, mais cela reste légal. Il FAUT faire évoluer la loi, c’est tout.
Tout à fait d’accord. On est face à une nouvelle technologie qui bouscule nos certitudes et nos habitudes. Il faut y réfléchir, encore une fois philosophiquement et légalement.
Non, c’est le cœur du sujet. Quand « l’apprentissage » de quelques IA génératives se résume à une razzia de tout ce qui se trouve sur le web pour se l’approprier au mépris de la loi, c’est la démocratie qui est en danger.
C’est pire que le plagiat. À terme, ça ne peut mener qu’à une substitution des données, tout ça pour en faire un monstre qui aspire tout. Le résultat est imparable. Un pourrissement de tout et une asphyxie de la création de valeur. Il n’y a pas à tergiverser.
Non, et justement c’ets ça le problème. Mais je n’argumente plus.
Mais je suis totalement d’accord sur cette partie!
C’est un appauvrissement culturel et intellectuel à terme, même si au départ cela semblera le contraire.
Ca me fait penser à la culture de l’externalisation. Ca rapporte bien au début, mais au final on perd tout savoir faire. Bon, j’en profite à fond sur plusieurs de mes métiers et clients, mais ça me désole.
Si tu ne vois pas, en effet, inutile d’argumenter. Un pillage généralisé. À terme, une bombe atomique. Pour la culture, la création, les démocraties. Plus rien n’aura de valeur puisque tout ne sera que régurgitations.
Ce que je retiens, c’est qu’on est quand même d’accord sur les grandes lignes.