Commentaires : IA : Suno et Udio poursuivies par les majors de la musique pour violation des droits d'auteur "à grande échelle"

Warner Records, Sony Music et Universal Music Group, les trois colosses de l’industrie musicale, se dressent face à deux start-up. Ils accusent Suno et Udio, d’une infraction massive aux droits d’auteurs.

Inutile, c est l avenir comme plein d ia dans le domaine. Et tout ça est récent a voir dans 1 ou 2 ans car il y a encore des défauts.
Ça remplacera pas les présences scénique, etc.
L outil dev entre Google et d autres artistes est intéressante car c est plus un outils.
Mais bon juste ça cassera les millionnaires de la musiques. Vu les signataires, les même n ont rien dit quand Spotify a décidé de ne plus rémunérer les artistes qui font très très peu d écoutes au profit des gros labels
Car on a pas attendu l ia pour avoir une musique sur abondante qui casse le marché, il y a des centaines de nouvelles track toutes les minutes etc …

3 « J'aime »

Ca n’est pas tellement la question de si c’est l’avenir ou pas… Le fait est que ce que produisent c’est outils n’est au final qu’un agrégat d’oeuvres sous copyright.

Ah oui, les fameux « millionnaires de la musique », c’est à dire les 0.0001% des concernés…

2 « J'aime »

Ben oui. Tu tappe du texte, un thème, et elle te fait une musique. Plus vrai que nature, c’est bluffant.

1 « J'aime »

Parmis les artistes cités en fin d’article il n’y a pas que des flèches, normal qu une IA arrive a faire pareil ou mieux, c’est à la fois vexant et vrai.

1 « J'aime »

Bah non, ce n’est pas un agrégat, si c’était le cas, ces LLM feraient des des dizaines de To de données, or ils n’en font que quelques Go, c’est bien la preuve qu’il s’agit d’une forme d’apprentissage et pas de copie bête et méchante.

À ce tarif là, n’importe qui est en effraction avec des copyright (qui sont, eux-même, basés sur des travaux enfreignant d’autres copyrights et ainsi de suite jusqu’aux doubles notes d’une pierre frappée contre un mur par l’un des premiers homo-sapiens).

4 « J'aime »

Ils s’y prennent en retard d’un siècle en termes de temps informatique, et ils sont complètement à côté de la plaque.
à tous ceux qui croient qu’on pouvait vivre de la musique avant l’IA : ça n’a jamais été vrai pour la majorité des artistes, même au temps des mécènes il y a des siècles.

non car sony et d’autres ont signé avec soundlab pour faire leur AI. Donc, en gros, ils souhaitent encore garder le bussiness pour eux.
Ensuite, la musique moderne est pas mal de bank de son et je ne parle même pas de splice avec des boucles qu’on trouve sur plusieur projet

Ensuite l’IA fait comme tout nouveau musicien, il y a des tonnes de tuto pour « copier » des prod, du type : je ne sais pas, taylor swift a du jazz,… sauf que l’IA l’apprend plus vite.
Mais on commence tous comme ça, énormément de tracks ont les mêmes patterns de drums,… type techno, EDM, reaggeton,…ce n’est pas pour autant que c’est du vol.

Et suno ou udio, jusqu’à la, c’est inspiré, mais pas copié a 100%, comme un dall e ou midjourney. Les musiques sont disponibles en libre acces a l’ecoute, spotify, youtube,… donc l’ia analyse

on tape le style de musique qu’on souhaite avec des mots clés, il y a une grande roue ou il propose tous les styles autant dire pleinssss, (même inconnu) et on peut rajouter des trucs type mélancolique, drop énergique etc, la tonalité… après on peut même sélectionner certain passage et lui demander de retravailler cet parti exemple un pont entre les 2 refrain,…
Et on peut également mettre les textes qu’on a écrits ou fait avec tchatgpt, et lui, il va creer la voix et mettre tout ca en rythm
le mix des instruments n’est pas parfait, mais c’est fou, pour un titre qui passe sur une radio quand les gens font autres choses pas concentrés, ca passe

Par exemple, tout fait par suno

Tes propos sont contredits par les faits :wink:
Ils ont modifié les règles le leur prompt il y a peu, mais par le passé on pouvait tapper des requêtes du genre « Une chanson à propos d’une femme s’appelant Roxane par un groupe de policiers » et obtenir un résultat tenant du plagiat pur et simple.

Ça n,'a juste aucun sens.
L’un des plus gros LLM, si ce n’est le plus gros, GPT4, fait 570 Go.
Une estimation basse de la taille du web textuel c’est 5 000 000 Go.
Même avec un bon taux de compression (environ 10/1 pour du texte en anglais), il y a 1 000 fois trop de données sur l’ensemble du web que pour le mettre dans le plus gros LLM.
Après, ça n’empêche pas qu’il ait, comme nous humain, enregistré une partie de texte qui lui semblait importante, pratiquement tel quel.
Mais ce n’est pas la méthode utilisée pour entraîner les LLM, basé sur une observation empirique du cerveau humain qui doit être remise en cause, c’est l’utilisation qui en est faite.
Si tu lui demandes de plage une chanson et qu’il le fait, qui est responsable ?
Pour refaire un parallèle avec l’humain, rien ne t’empêche de mémoriser une chanson, ni même de la chanter seul ou en face d’un petit groupe d’amis.

Qu’est-ce qui les IA de ce genre enregistrent l’audio de la même manière que quand il est destiné à l’oreille humaine ? Elles en extraient une certaine somme d’information et il est fort probable que l’essentiel de cette information soit du MIDI. Et un fichier MIDI, c’est quelques dizaines de ko maximum pour un morceau.

Par contre s’il essaye de vendre une composition et qu’il est évident qu’il y a eu plagiait d’un autre morceau, il peut être poursuivi.

Lol, si une IA se base sur du MIDI pour son apprentissage, ce qu’elle va reproduire sera du… MIDI… pas vraiment ce qu’on recherche.

Je ne connais pas le fonctionnement des IA génératives audio, mais il y a de fortes chances que le fonctionnement soit similaire à celles des images : pendant le phase d’apprentissage elles analysent la représentation numérique du signal audio (donc, probablement basé sur du PCM => ~15 Mo par minute) qui est associé à des mots clés pour en ressortir des patterns qui seront associés à ces mots clés et pendant la phase de génération elles partent d’un bruit blanc qui sera modulé en fonction des mots clés donnés pour le faire ressembler aux patterns découverts pendant la phase d’apprentissage (ces IA génèrent aussi les voix, ce qui n’est pas codable en MIDI).

On est bien loin d’un patchwork de différentes pistes similaires pour produire du nouveau contenu. Ceux qui y voient du plagiat ne comprennent en général pas même le fonctionnement de base d’une IA générative.

Bah oui, pareil pour une IA, si tu lui demandes de plagier tel ou tel artiste, elle a la capacité de la faire (comme n’importe quel humain avec un minimum de talent).
Et, donc, on en revient à ce que je dis : l’IA n’est pas responsable du plagiat, mais celui qui l’utilise à mauvais escient.

Le MIDI n’est pas une banque de son, c’est un ensemble d’informations pouvant être utilisé pour piloter des instruments. Pour avoir tester Suno, on entend très bien par exemple que les guitares sont des instruments virtuels auxquels on envoie donc l’information de la note à jouer. On ne stocke donc pas l’audio mais l’information « joue telle note à tel moment avec tel vélocité » et cette information ne pèse pratiquement rien.

Si ce que produit l’IA est du MIDI, même joué par des VSTi, les sons produits seraient très plats, ternes et avec une forme de similitude.
Le MIDI est loin de permettre la représentation de suffisamment d’information pour représenter fidèlement toutes les subtilités d’une bande sonore.
La différence entre un MIDI joué par des VSTi et la bande sonore originale c’est un peu comme la différence entre un étudiant en solfège qui joue bien et fidèlement une partition et un virtuose qui l’interprète.

  1. Ca se voit que tu ne fais pas de musique, ça fait très longtemps qu’une bonne partie des instruments sont émulés de manière plus que convaincante et que les orchestres notamment que l’on entend dans les films où jeux vidéo sont produits par des instruments virtuels
  2. Ce que produit Suno est JUSTEMENT très plat et artificiel et on l’entend très nettement sur les guitares (qui est peut-être l’instrument le plus difficile à émuler). Voilà un exemple: https://www.youtube.com/watch?v=vRtHw34J770

Donc non seulement tu as tort, mais en plus même si tu avais raison ton commentaire n’aurait pas été pertinent.

  1. Cette attaque personnelle à 2 franc 6 sous… d’où parce qu’on ne saurait pas que des instruments sont émulables on ne fait forcément pas de musique ? Faut savoir lire un message aussi, avant de répondre totalement à côté de la plaque : les VSTi sont justement les instruments émulés dont tu parles et je n’ai pas dit qu’ils ne pouvaient pas reproduire les instruments de manière convaincantes, mais seulement que le format midi ne leur donne pas suffisamment d’information pour qu’ils le fassent.
    Comment tu retranscrits les effets (l’écho, la compression, la distorsion, le phaser, la réverb, l’égalisation…) avec ton fichier MIDI.
    Autre point : une batterie, par ex., c’est pas 1 type de son, il existe autant de sons différent qu’il existe de modèles (c’est le timbre, entre autre). Les banques de son des VSTi peuvent en reproduire quelques un, mais encore faut-il que ton LLM puisse sélectionner le bon.
    Mais, là encore, ce n’est pas la question : les LLM audio ne fonctionnent pas ainsi. Stable Diffusion propose un LLM audio ouvert (stabilityai/stable-audio-open-1.0 · Hugging Face). Il fait moins de 5 Go et c’est la seule chose nécessaire pour générer de l’audio. C’est moins qu’un VSTi et sa banque de son pour uniquement la batterie (EZdrummer 3 | Toontrack : 15 Go).
  2. Je n’ai jamais utilisé Suno, uniquement Udio (qui est plutôt impressionnant et pas du tout plat), mais si vraiment il produit des sons si plat et artificiel, que craignent les Majors ? De produire des musiques tout aussi mauvaise ?

Alors, s’il te plaît, avant de prendre les gens pour des cons, fais un peu d’introspection, lis correctement leurs messages, renseigne-toi et réfléchi à 2 fois avant de pondre des âneries.

1 « J'aime »

Sauf qu’à aucun moment je n’ai dit que ces modèles d’IA ne fonctionnaient qu’avec du MIDI, j’ai dit qu’ils devaient extraire une certaine quantité d’information utilisable de ces morceaux DONT les notes jouées au format MIDI ou similaire.

Oui car ce sont des outils professionnels où chaque élément de l’instrument est enregistré des centaines de fois en très haute qualité. Un modèle d’IA ouvert ne répond pas au même type de besoin et rien qu’en compressant les samples on peut facilement réduire la taille de ceux-ci par 50.

Tu bases ton raisonnement sur TON interprétation de la musique: un ensemble de notes pour caricaturer.
En fait une IA travaille plutôt sur une « impression » (le terme n’est pas le bon mais je ne trouve pas de meilleure analogie) associée à des mots clés. Il n’y a aucune note de stockées mais de réflexes de génération d’information lié à ses mots clé (et encore ce ne sont pas vraiment des mots clés, plus des connexions, mais je simplifie). D’ailleurs toute les LLM fonctionne de la même manière.
Dans le cas ou un morceau ressemble beaucoup à un morceau existant, c’est parce que l’ensemble style / rythme / instru est identifiable instantanément, et c’est justement cette « impression » que le spectateur perçoit. Et c’est juste en découplant les différents paramètres pour éviter de retomber sur des caractéristiques trop porches de l’existant que l’on s’éloigne de l’impression de plagiat.
En recherche, on explore plutôt les résultats obtenus en les validant sur différents critères (fiabilité, filtres de légalité, confrontation à l’existant, simulations, …) pour s’assurer que l’on ne viole pas de loi et que les résultats sont valides, il n’y a pas de règles en amont qui limiteraient l’inventivité absolue des IAs mais je pense que pour les LLM ça doit poser un problème.