Meta, pris la main dans le sac ? L’entreprise est accusée d’avoir puisé dans des contenus pornographiques piratés pour muscler son intelligence artificielle. Une énième polémique qui expose, sans grande surprise, les coulisses peu reluisantes de la course à l’IA.
Il faut se rendre à l’évidence, la majorité, si pas tous les modèles d’IA générative disponibles aujourd’hui ont été bâtis grâce au plus grand vol de contenus de l’histoire informatique. La seule véritable solution serait de repartir sur des modèles « propres » dont l’entraînement est effectué à partir de zéro sur des contenus autorisés et vérifiés, mais j’en doute. Les entraînement de l’IA ont coûté énormément d’argent et d’énergie alors que pour certaines sociétés le retour sur investissement est difficile. Et si en plus ces IA sont entachées de divers scandales plus ou moins gros (toutes sont concernées , par exemple Stability AI aurait à un moment supprimé sans raison son modèle SD1.5 de HuggingFace ainsi que tous les dépôts car selon certaines sources, l’entraînement contenait des images pédopornographiques). On peut s’attendre donc à d’autres actions en justice dans les mois ou années à venir et peut-être même un éclatement. Reste à savoir qui va payer les pots cassés.
Complètement d’accord, surtout que maintenant il y a des jeux de données basé sur les jeux de données… C’est déjà trop tard pour les arrêter, mais ça peut faire brasser quelques millions d’une main à l’autre en procès.
Encore un truc qui va être classé « for the greater good », avec un bénéfice qui dépassera les pertes, au moins en apparence sur le vol « direct » de données. Bon par contre, tous les trucs qui feront faillite parce qu’on a plus besoin d’eux après les avoir pillés, ça sera pas comptabilisé.
« piocher dans les zones grises du droit d’auteur »
Heu… pour tonton dédé qui va télécharger « les bronzés font du ski » on appel ça pirater.
Ben oui il faut appeler un chat un chat, que ce soit les sociétés qui ont créé des modèles ou les utilisateurs de ces modèles qui défendent l’IA, on voit surtout qu’ils cherchent à jouer sur les mots et trouver des justifications. Quand tu vois des modèles librement disponibles qui violent allégrement le droit d’auteur et ne s’en cachent même pas…
Toute la « Tech » américaine a toujours utilisé des moyens at la limite de la légalité ou carrément complètement illégaux. Youtube s’est construit sur le pillage de contenus s’asseyant allègrement sur la notion de droit d’auteur, Facebook et les autres Twitter continuent de se foutre royalement des notions de respect de la vie privée et tout le monde connaît très bien la technique de vente à perte d’Amazon ou de Netflix pour écraser la concurrence et ensuite abuser de leur situation dominante. On ne parlera même pas de Microsoft et de sa vente forcée de Windows depuis des décennies… Tout ces gens sont des escrocs qui profitent de la stupidité et de l’ignorance de leurs clients qui sont et restent leurs meilleurs alliés…
J’aurais écrit « Prise la main dans le slip ».
Occasion manquée ![]()
Tout dépend de comment est obtenu le contenu.
Si c’est du contenu disponible en accès libre, ce n’est légalement pas du piratage ni pour ton ton ni pour l’entrainement d’une IA. La zone grise, c’est que la permission d’entrainement de l’IA n’existe pas et pour le moment on considère qui si ce n’est pas interdit, c’est autorise. Cependant moralement, on peut considérer que l’on est sur de l’exploitation de données sans rémunération, d’où la « zone grise ».
Si le contenu est protégé d’une quelconque manière (ou si il est explicitement dit que les IAs ne peuvent utiliser le contenu) et que la protection est controunée, c’est répréhensible dans le cas de tonton et des IAs.
