Largement utilisée pour entraîner les modèles d’intelligence artificielle, l’existence même de Wikipédia pourrait désormais être menacée par ces derniers.
" Pour être honnête, il est déjà invraisemblable que Wikipédia, dernier vestige d’une vision utopique d’Internet qui refuse la vision capitaliste de tous les autres sites à l’audience comparables, n’affiche pas de publicités, ne récolte pas d’informations personnelles et donne de l’importance à la vérité, ait déjà survécu aussi longtemps. "
C’est au contraire les raisons qui en on fait le site le plus stable et le plus durable du web.
Ensuite il y a un élément qui est très sous-estimé dans l’article et qui découle directement des faits énoncés plus haut.
À savoir la confiance. Les modèles d’IA sont au final contrôlés par le ou les quelques humains qui les possèdent. Bref, les IA sont des produits de propagande de masse et leurs objectifs sont ceux de leurs propriétaires…
Je n’y vois aucun problème, si les IA se servent et utilisent Wikipedia c’est que du bonus, ça montre le sérieux de ce site.
Par contre c’est coûteux pour Wikimedia qui paye la bande passante utilisée à chaque scraping des info d’entraînement (pas à chaque entraînement des LLM, mais à chaque mise à jour ).
Certe, dans ce cas il y’a sûrement moyen de trouver un terrain d’entente entre les IA et Wikipedia.
Longue vie à Wikipédia.
ChatGPT trouve ses données où à votre avis ?
Il n’y a pas d’intelligence juste des requêtes dans des bases de données et ces données sont bien quelques part !
Wikipedia, Wikipédia ou Wikipeéia ?
Si ce n’est que ce dernier qui est menacé, ça devrait aller.
Plus sérieusement, il est probable que Wikipedia soit menacé malheureusement. Il faudrait savoir dans quelles proportions les différentes IA conversationnelles en tirent des infos pour leurs réponses.
Certes. Mais ça n’empeche que si Chat GPT permet directement de synthétiser le résultat d’une question, il peut rendre wikipedia caduque. Pas la source de données, mais bien wikipedia (Qui est surtout un aggrégat de différentes sources). De la meme manière que Wikipedia a dépassé en son temps les encyclopédies. Donc oui, je dis pas que c’est ce qu’il va se produire, mais c’est pas déconnant comme reflexion.
" Il faut dire que l’IA n’a pas ces défauts bien humains que sont le temps de réflexion et l’argumentation."
J’espère que cette phrase est ironique, c’est ce qui fait toute la différence avec une machine, aussi perfectionnée soit-elle!
Wikipedia ne vit que par les dons et le mécénat.
Si les gros groupes ont besoin de wikipédia pour alimenter leurs IA ils les financeront, non ? Sa disparition n’étant bénéfique pour personne.
Tout de même ce problème majeur : des entreprises projettent de se faire de l’argent par l’exploitation de données produites par des bénévoles. Si l’I.A venait à se substituer à ce site, des bénévoles travailleraient à l’enrichissement de personnes qui invariablement n’en ont pas besoin. Système totalement perverti (bon après il y a déjà chez Wikipédia des gens qui vivent sur ces données, j’espère de façon raisonnable et mesurée).
On devrait logiquement imposer à ces I.A de rester des services gratuits, exempts de pub et de récupération de données.
Pour le test que j’ai fait (BARD sur le sujet « Technicolor trichrome »), les résultats produits sous l’apparence de propos sérieux sont un amas d’approximations et erreurs que le produit n’a pas honte de restituer sans alerte aucune. Et lorsqu’on lui pointe ses erreurs (qu’il corrige de façon incrémentale, laborieusement), il s’excuse d’être perfectible et en phase de formation. La page Wikipédia dédiée est en revanche elle il me semble irréprochable (et bien plus complète).
Hors pour des recherches croisées, sur des sujets non simplement définis (i.e sans page wikipédia dédiée), il ne me semble pas raisonnable de se tourner un jour vers ses outils.
Il faut dire que l’IA n’a pas ces défauts bien humains que sont le temps de réflexion et l’argumentation.
Et l’IA n’a pas la qualité de ces défauts, à savoir la capacité de réflexion et d’argumentation.
Donc chier approximativement un amat de mots piochés dans la production d’humain ayant réfléchis et argumenté, c’est tout ce qu’elle sait faire cette « IA », peut-être en quelques nanosecondes, mais ça reste de la bouillie.
Avec l’emballage très réussi de Wikiwand, Wikipedia devient déjà IA compatible avec différentes options de recherche dans le contenu d’une page. Wikiwand pour lequel il existe des modules pour navigateurs web.
A Wikipedia d’introduire son propre enrobage avec outil IA à base de ChatGPT et consorts pour chapeauter son moteur de recherches.
Sur l’illustration : Wikiwand explorant la page Clubic de Wikipedia avec une approche IA pour simplifier l’exploration du conenu.
Tout à fait d’accord !
C’est semblable aux magnat de la presse que sont Murdock ou Bolloré…
qui teintent leur ligne éditorial de leur conviction politique.
Ca sera pareil pour les IA selon les sources des données qu’on leur aura donner en pature pour modéliser leur intelligence.
Ils pourraient avoir un accord avec les boites d’IA :
Accès en masse aux articles autorisé contre une API permettant de vérifier si les articles viennent de l’IA. Par exemple en comparant les hash de nouvelles phrases dans Wiki avec une base de donnée de hash calculés et archivés à chaque bout de texte généré.
contre hash des bouts de phrases générés accessibles par Wiki pour vérifier si le contenu publié n’est pas issu de leur IA.
Non c’est rien du tout pour deux raisons :
- c’est tout petit : par exemple l’ensemble du Wikipédia anglais (le plus gros de loin) tient dans 20Go
- il y a dans le monde de multiples mirroirs des dumps mis à jour tous les 10 j environ. Le téléchargement ne coute donc rien à la fondation.
Il n’est donc absolument pas nécessaire d’utiliser l’api de wikipédia pour aller chercher les pages une par une. Un téléchargement des dumps quand on veut refaire l‘apprentissage de l’IA et ça roule (et en plus c’est plus commode).
Mdr, ChatGPT et consort font preuve d’intelligence et de bon sens hein, c’est largement admis et documenté. Y’a juste des erreurs de temps à autre parce que la méthode est bourrine, mais ChatGPT est super balèze. Et c’est que le début, la version pré alpha de ce qui est à venir.
Wikipedia reste une valeur sûre, des articles bien garnis, bien renseignés, même si il y a des erreurs, par exemple, la température maximale dans la vallée de la mort, wikipedia indique 56,7°C comme record officiel, ce qui est faux, puisque ce record eqt invalidé par l’OMM, et c’est les 54,4°C qui ont été retenu.
Et chatgpt reprend cette même erreur, c’est à nous humains de dire à l’IA qu’il se trompe.
Chatgpt pour les renseignements sur les vitamines/minéraux/additifs est approximatif, quand je lui demande de me citer ses sources, il m’envoie des liens soit obsolètes, soit qui n’ont aucun rapport avec le sujet.
Idem si je lui demande des choses techniques sur les chevaux, il fait des erreurs grossières, dire les pattes arrières au lieu des jambes, dire le train arrière au lieu de la croupe (ou croupion à la rigueur), obligée de lui dire qu’il se trompe, pour qu’il dise la bonne chose.
C’est pourtant la base de l’anatomie du cheval.
Et truc assez rigolo, si je lui pose 2 fois la même question en 2 jours, il va me sortir 2 réponses totalement différentes, parfois le contraire l’une de l’autre, ce qui prouve l’irrégularité.
L’IA tout le monde en fait un flan, mais ça reste perceptible, et loin d’être fiable, rien ne vaut le bon vieux manuel/encyclopédie, ou même wikipedia.
Je ne comprends toujours pas l’engouement !
A voir si ils ne se heurtent pas aux limitations de licence utilisée par Wikimedia :.
« Attribution — Vous devez créditer l’Œuvre, intégrer un lien vers la licence et indiquer si des modifications ont été effectuées à l’Oeuvre. Vous devez indiquer ces informations par tous les moyens raisonnables, sans toutefois suggérer que l’Offrant vous soutient ou soutient la façon dont vous avez utilisé son Oeuvre. »
« Pas de restrictions complémentaires — Vous n’êtes pas autorisé à appliquer des conditions légales ou des mesures techniques qui restreindraient légalement autrui à utiliser l’Oeuvre dans les conditions décrites par la licence. »
Car actuellement, clairement pas de sourcage…
Et pour avoir demandé aux différentes IA de rédiger des articles et descriptions de produits pour une animalerie en ligne, bah je trouve vraiment pas ça folichon, c’est une bonne aide pour la structure, mais c’est loin de pouvoir être publié tel quel.