Il avait été annoncé en mai dernier, mais depuis, la firme OpenAI s’est faite discrète à son sujet. L’outil de désinscription aux données d’entraînement de l’IA Media Manager est, hélas, encore bien loin de voir le jour.
Les sociétés ayant créé des modèles d’IA initiaux auraient dû dans l’idéal commencer par se demander si elles pouvaient utiliser telle ou telle donnée. Donc, elles ont tenté le chemin inverse en considérant que « si c’est sur Internet, alors c’est du domaine public ». J’imagine qu’OpenAI (pour ne citer que cette société car il y en a des dizaines d’autres) n’aurait jamais pu réaliser des modèles dans un délai raisonnable s’il aurait fallu effectuer des démarches.
Ah tiens, vous avez rédigé un bel article scientifique, pouvons-nous le télécharger et l’utiliser dans notre modèle d’IA? Oh, et ce photographe a de bien belles photos sur son site, nous devrions peut-être lui demander si on peut les télécharger toutes et l’inclure dans notre modèle. Et waouh, il fait de chouettes dessins cet artiste, on va utiliser ses œuvres pour alimenter DALL-E, j’imagine que c’est pour ça parfois qu’on retrouve un petit charabia en bas de l’image qui fait penser à une signature? Allons faire un tour sur Github, il y a des tonnes de logiciels open source à exploiter mais on s’en fout de la licence tiens. Etc etc.
Franchement, faut oser le dire : malheureusement les modèles d’IA ne sont pas clean à 100%. L’idéal (mais on peut rêver) serait donc maintenant que la preuve de concept a été faite, repartir à zéro et n’utiliser que des données du domaine public.