Commentaires : Mistral AI : l'enquête qui révèle un pillage massif d'œuvres protégées

Le champion français de l’IA générative se voulait différent des géants américains. Une enquête de Mediapart publiée ce 23 février 2026 remet sérieusement en cause cette image. Harry Potter, Le Petit Prince, Elton John : le catalogue des infractions présumées donne le vertige.

https://clubic.com//actualite-601714-mistral-ai-l-enquete-qui-revele-un-pillage-massif-d-uvres-protegees.html

J’ai un peu de mal avec l’idée que l’on qualifie de pillage ou piratage de fait de nourrir une IA avec es œuvres sous licence. Si elles ont été achetées par Mistral, le fait qu’elles soient utilisées pour entraîner l’IA n’est ni de la copie, ni de la diffusion.
L’humain fait exactement la même chose quand on lui demande d’analyser une œuvre dans un cours de français.
Le fait que ce modèle répète ensuite l’œuvre de manière un peu trop similaire est, certes, problématique.

Si j’ai lu un livre, au hasard « une vie » de Simone Veil, je vais me servir de cette lecture pour me forger une opinion « citoyenne » et la partager avec combien : 50 personnes ? Quelles conséquences ? Inciter des personnes à acheter et lire le livre ? Car, de mémoire, je ne vais pouvoir évoquer que des idées générales sur ce livre, pas le restituer mot pour mot sur 300 pages.

C’est pas aussi simple que tu le crois, c’est l’une des questions les plus complexes et controversées du droit actuel.

Le fait d’acheter une oeuvre ne te permet pas d’en faire ce que tu veux, et Mistral ni aucune entreprise IA n’achète toutes les données qu’elles utilisent sinon une bonne partie de l’argent va partir dans les droits :stuck_out_tongue:

Ahhh bon t’es sûr ? c’est très flatteur de penser qu’un humain possède la capacité d’analyse d’une machine à plusieurs millions $

@G29 a bien répondu, je pense que si les détenteurs de droits d’auteur croyaient qu’un humain avait la capacité que possède l’IA, on aurait pas les mêmes lois que celles qu’on a aujourd’hui :slight_smile:

Beh tu vois quand tu réfléchis. Tout le monde se cache justement sur le fait que l’IA n’est pas capable de reproduire fidèlement une oeuvre, mais rien que le fait qu’elle peut s’en approcher pose problème. certes l’IA n’est pas faite pour reproduire des oeuvres, ce n’est pas le but de ces technologies et elle n’en est pas capable sans faire d’erreurs mais disons que les LLM ont une fenêtre de contexte de plus en plus grande, elles peuvent travailler sur plusieurs paragraphes et pages et elles peuvent en garder une bonne partie. et puis qui sait ce que les entreprises IA font avec les données ?!

hhhh tkt même l’IA ne peut pas le faire, elle ne garde presque pas grand chose du livre après l’entraînement, en tous cas pour l’instant mais rien ne dit qu’à l’avenir elle ne peut pas.

Une boite française a peu pret compétitive ?
Vite, fusillons la !

Une IA non plus, ce n’est pas une base de données, il faut se renseigner un minimum sur son fonctionnement.

La vectorisation n’empêche pas l’IA de ressortir parfois mots pour mots des portions de texte

Tu as parlé de 300 pages, ce n’est pas des portions ça :stuck_out_tongue:

Bien sûr qu’elle sort des portions de texte c’est son fonctionnement de base, elle se base sur la prédiction, à ton avis comment elle sait qu’il y a souvent un verbe qui accompagne le nom et aussi un complément d’objet ? l’IA ne connait pas la grammaire mais elle enregistre des schémas et sans ça elle est inutilisable.