Après de nombreux mois de controverse concernant la collecte de données pour entraîner les IA génératives, OpenAI ouvre la voie pour changer la donne.
(…) en modifiant un fichier qu’ils connaissent déjà très bien : robot.txt
Ne renvoyez surtout pas vers la doc : OpenAI Platform
Et c’est « robots.txt » au pluriel.
Je trouve ça ridicule, tous les moteurs de recherche « aspirent », d’où les résumés sous les liens.
Si paranoman à peur de voir son ou ses sites aspirés par une IA qu’il commence à bloquer les moteurs.
On diffuse des informations sur le net mais il ne faut surtout pas que ça apparaisse qqpart !
On produit du contenu mais on ne veut pas que ce contenu soit exploité sans consentement ou contre partie par un tiers pour son profit. Parce qu’il s’agit bien de cela strictement.
Ça peut avoir du sens quand même dans certains cas… Par exemple, si j’administrais un site de fausses nouvelles humoristiques, je demanderait à ChatGPT de ne pas utiliser mon site pour son apprentissage pour éviter de le polluer avec des fausses informations reprises hors contexte du site humoristique…
Dans ce cas oui ça fait sens.
robots.txt, c’est pas chaque page, tu peux en mettre un à la racine du site indiquant qu’il s’applique à toute l’arborescence. Et ça fait du coup bien une simple petite ligne à ajouter, comme pour les sites qui ne veulent pas que leur contenu soit référencé. C’est exactement le même système (en fait, ceux qui avaient déjà bloqué le référencement de façon globale, indépendamment du nom du robot, bloquent peut-être même déjà ChatGPT depuis qu’il prend en compte le robots.txt, car s’il fait bien les choses il prend en compte un disallow générique…).
Et OpenAI donne même la plage d’IP du bot pour pouvoir faire un vrai blocage technique (parce que le robots.txt, c’est pas un blocage technique, c’est juste demander au robot de ne pas indexer, mais techniquement rien ne l’empêche de passer outre…).