Des milliers de clés API et mots de passe actifs se baladent dans des données publiques utilisées pour entraîner certaines IA. Une découverte qui relance le débat sur la sécurité des modèles et les risques liés à leurs sources d’apprentissage.
On peut rêver car cela n’arrivera sans doute jamais mais à quand un méga procès contre les créateurs de modèles d’IA pour engager leur responsabilité sur ce qu’ils ont injecté dans ces modèles? Ne trouvez-vous pas un peu facile qu’ils disent « Ah non ce n’est pas notre faute si l’IA a été entraînée avec des données sensibles », « Ah désolé si on a pris des images protégées par un copyright », « Ah désolé si le modèle peut générer un contenu immoral » etc. Non. Ils ont pompé un maximum de choses à partir d’absolument tout Internet (voire même du dark web) pour créer ces modèles puissants. Évidemment qu’il peut y avoir un risque de sécurité. Et les développeurs utilisant l’IA doivent aussi faire attention bien sûr (exemple que l’on a eu au travail concernant l’utilisation de l’IA : ne reproduisez un code fourni par IA que si vous le comprenez. Autrement dit, cela peut aider à trouver des idées de solutions mais ça ne remplace pas le bon sens).
Une IA ne fera que faire ce qu’on lui demandé de faire avec les données dont elle a à disposition. Ces données sensibles ne sont pas tombées du ciel.
les modèles IA récupèrent les données publiquement accessibles.
Pourquoi ne pas se poser la bonne question : pourquoi ces clés et autres mots de passe sont-ils publiquement accessibles ?