Commentaires : Le New York Times estime que ChatGPT a été entraîné avec ses articles, le quotidien attaque OpenAI et Microsoft

Admin · Décembre 27, 2023, 4:50

Le New York Times attaque en justice OpenAI et Microsoft pour une utilisation indue de ses articles dans l’entraînement d’IA comme ChatGPT.

https://www.clubic.com/actualite-513679-le-new-york-times-estime-que-chatgpt-a-ete-entraine-avec-ses-articles-le-quotidien-attaque-openai-et-microsoft.html

crush56 · Décembre 27, 2023, 4:50

Du coup les étudiants journalistes qui s’inspirent de leurs articles pour s’entraîner et parfaire leur rédaction s’exposent aux mêmes sanctions ?

boby9999 · Décembre 27, 2023, 4:58

Les étudiants ne sont pas rémunérés

cid1 · Décembre 27, 2023, 5:03

Et allez, c’est parti, ils vont tous s’y mettre, je vois pas en quoi ça leur fait perdre des milliards.

Squeak · Décembre 27, 2023, 5:07

Je pense que tout le monde peut dire que ses données ont été aspirées par les IA pour entraîner leurs modèles. Et c’est bien un des gros problèmes. Ca a été soulevé dès les débuts, maintenant on commence à en voir l’ampleur.

A défaut de trouver un arrangement, je pense qu’une des solutions (mais là je n’y crois pas du tout), ce serait que les IA repartent de zéro et que l’on crée des modèles véritablement respectueux en ce qui concerne le contenu original. Certes, ça limiterait fortement mais au moins, on pourrait se dire que ça partait d’une bonne base.

BlBird67 · Décembre 27, 2023, 10:14

Parle-t-on de données publiques? Si oui, je ne vois pas le problème.

gothax · Décembre 28, 2023, 7:27

Cela s’appelle citer ses sources ! Tu vois l’article que tu viens de lire tire ses sources de The Verge et la BBC !
J’espère qu’ils gagneront avec une très forte amende pour rappeler ce fondement

sebstein · Décembre 28, 2023, 8:33

L’IA non plus quand elle fait son travail d’apprentissage.
Les étudiants aussi, quand ils ont bien pompé l’inspiration (comme pour tout corps de métier en fait), finissent par gagner de l’argent quand ils travaillent en puisant dans ce qu’il ont appris avant par empirisme.

YBoy360 · Décembre 28, 2023, 8:42

Les étudiants payent leur accès et respecte le droit d’auteur ;
Les sources sont connues lorsque l’article est publié (contrairement à aujourd’hui pour les LLM et les IA génératives) ;
L’humain ajoute systématiquement, naturellement un biais, créatif, contrairement aux LLM ou aux IA génératives.
…

sebstein · Décembre 28, 2023, 8:43

Si tu devais citer les sources à chaque fois que tu t’inspires du travail d’un autre, tu n’arrêterais pas de le faire, il il y aurait un plus grand travail d’indexation que production.

Quand tu allumes un feu, tu cites l’inventeur de l’allumette ou du briquet ?

sebstein · Décembre 28, 2023, 9:30

Les IA aussi paient leur accès si le contenu n’est pas en libre accès.

Et concernant le biais créatif, il ne vient pas de nulle part, il est lié à notre histoire, et donc aux connaissances qu’on a emmagasinées jusque là.
Il faut arrêter de croire que les humains ont une âme.

D’ailleurs, les réponses données pas ChatGPT ou Bard ne sont pas les mêmes, comme pour deux humains.
Même si tu lançais l’apprentissage de 2 ChatGPT identiques avec deux sources de données différentes, leurs réponses seraient différentes.

Les IA génératives ne recrachent pas des phrases telles qu’elles pompées des sources. Elles créent une nouvelle réponse sur base de ce qu’elles ont appris, exactement comme pour un humain.

Squeak · Décembre 28, 2023, 10:58

« Les IA aussi payent leur accès si le contenu n’est pas en libre accès ». Ça me fait bien rire.

J’ai déjà vu des images générées par IA qui contiennent des éléments faisant penser à un filigrane, ou même un petit charabia en bas à droite qui ressemble à une signature. Qu’on m’explique pourquoi (déjà vu cette question sur d’autres forums et les réponses sont plutôt vagues et tendent vers « ah ben… peut-être que dans les données d’entraînement on a été pomper une image sur un blog perso ou autre, que peut-être on a pris un dessin qui avait été par un artiste sur son site et qui contient une signature »). Et ça c’est un reproche.

Il y a réellement eu une collecte massive. On peut déblatérer là dessus pendant des jours, à trouver des arguments et des contre-arguments mais ça me fatigue. Ces outils peuvent être géniaux, peuvent réellement augmenter la créativité etc, mais peut-être il fallait encadrer ça. Chose par exemple qui commence à être faite avec des propositions de lois.

gothax · Décembre 28, 2023, 12:50

Quand tu rédiges un articles dans un média, scientifique ou tout autre : oui toujours

Ton exemple est affligeant tu te trompes de forum !

Hep · Décembre 28, 2023, 2:31

Le problème c’est les droits d’auteurs de toutes façons. C’est une aberration!
Le jour ou les maçons vont réclamer des droits d’auteur chaque fois qu’on utilise notre maison…
Est-ce qu’un musicien cite a chaque fin de représentation le fabriquant de son instrument?

Le savoir et la culture n’appartiennent à personne et ceux qui les revendique sont des escrocs.

sebstein · Décembre 28, 2023, 3:43

Je n’ai pas parlé de citation, de réécriture ou d’utilisation, j’ai parlé d’inspiration. Au sens large.
Quoi que tu fasses, tu t’inspire forcément du travaille de (à minima) quelqu’un d’autre, qui s’était, lui-même, inspiré du travail d’un autre, etc.

Je ne vois pas en quoi mon exemple est affligeant. Il est au contraire très parlant pour montrer que, quoi qu’on fasse, on repose sur des millénaires d’inventions et d’améliorations continues.

Si tu veux un exemple plus proche de ce forum, quand tu utilises un smiley, tu cites son auteur ?

Je donnes des exemples volontairement simplistes pour ne pas avoir des réponses à rallonges, mais soit :

Imaginons que tu doives rédiger une synthèse des principes de la distillation, des différentes techniques et ses usages.
Deux cas de figures :

Tu es novice. Tu vas donc te renseigner auprès de différentes personnes, quelques bouquins et sur internet. Tu vas t’imprégner de tout ça, essayer de comprendre et synthétiser les différentes idées exposées par ces sources. Forcément que tu va citer ces sources.
Tu es expert en la matière. Après des études de chimiste, tu travailles chez Total et responsable du craquage depuis un certain nombre d’années. Autant dire que, ce travail de synthèse, c’est rien du tout pour toi. Mais pas parce que tu as la science infuse. Parce que tu as bien écouté tous tes professeurs, parce que tu as lu énormément sur le sujet durant toute ta carrière… Tu fais quoi ? Tu cites tous les professeurs, collègues, connaissances que tu as eus, toutes les écoles et unifs dans lesquelles tu as étudié, toutes entreprises dans lesquelles tu as travaillé, tous les livres que tu as lu… ?

ChatGPT (et autres) sont dans ce second cas. Alors, certes, il ne leur faut pas des années, puisqu’ils s’imprègnent beaucoup plus vite de ce qu’ils ingurgitent comme données, mais le processus est le même. Ils ne reformulent pas ce qu’ils ont lu, mais ce basent sur tout ce qu’ils ont pu lire pour produire quelque chose de nouveau.

En fait, pour être dans le premier cas avec ChatGPT, et donc devoir citer les sources, il faudrait que tu lui fournisses le contenu d’articles et de bouquin et de lui demander de synthétiser sur base de ce que tu lui a donné.