Commentaires : Une requête sur ChatGPT demande 10 fois plus d'électricité qu'une recherche Google traditionnelle : l'IA, ce gouffre écologique

Parce qu’ils ne les analysent pas, tout simplement.

De façon simplifiée, un LLM est juste un modèle probabiliste qui prend une suite de token (à peu près équivalent à des syllabes) en entrée et retourne le syllabes les plus probables pour compléter la suite (avec une part plus ou moins grande d’aléas, pour donner des réponses plus variées).

Ils savent pas analyser une phrase … je parle de l’analyse des phrases en grammaire mon cher Matt pas de l’analyse de la phrase par l’IA :slight_smile: c’est comme si je disais ils savent pas conjuguer des verbes :slight_smile: tu ne vas pas me dire que les IA ne conjuguent pas behhh oui ils ne conjuguent pas le verbe comme on le fait mais le résultat est le même s’ils donnent une mauvaise forme je dirais qu’ils n’ont pas bien conjugué :slight_smile:

Bref … Pourtant ce n’est pas compliqué pour une IA, la grammaire a un ensemble de règles fixes et les IA peuvent apprendre ces règles et générer des mots en suivant ces règles.

Tu n’as pas compris l’explication de Matt.
Quand l’ia génère sa réponse elle ne sait pas quel mot elle va mettre avant de l’écrire. Elle va piocher dans tous les textes qu’elle a appris, si possible dans les textes qui ont une réponse qui devrait convenir, et elle poursuit sa phrase avec un mot souvent utilisé dans ce type de cas.
Elle ne comprend rien a ce qu’elle écrit et ne suit pas de règle d’orthographe et grammaire, juste des probabilités (venant de milliards de paramètres) en fonction des textes qu’elle a appris avant. C’est pousser a l’extrême (bien bien plus haut) la suggestion des mots quand on tape une lettre sur les claviers des smartphones, qui donne alors le mot le plus souvent utilisé (mais qui ne convient pas en fait)

Si le mot « amande » est souvent utilisé par des internautes pour parler des PV/contravention, faut s’attendre a avoir la faute un jour car c’est ce qu’elle a appris pas mal de fois. Elle ne peut savoir que c’est une erreur, donc s’il y a des fautes dans les textes utilisés pour ses entrainements elle fera la faute. Probable que l’IA faisait moins de faute avant d’être entrainer par le net :rofl: (si elle s’appuie sur mes textes on est mal :joy: )

Ensuite il y a le cas « anglais » comme langue de travail. J’ai demandé à un outil de génération d’image (Générateur d’images IA gratuit, application de texte à image à partir de Microsoft Designer | Microsoft Create ) de me faire une image avec un animal donné et un message « Merci xxx »
Elle a bien fait l’image demandée mais sur toutes les images proposées j’avais « Thank You xxlxs ».
Surement un effet « je traduis le prompt en anglais pour le comprendre ». Et le prénom de la petite n’ayant pas été compris elle a brodé avec des variations de qq lettres. Une seule avait le bon prénom.
Bon c’est un générateur d’image mais cela montre un peu la bêtise de ces IA actuelles

C’est probablement même pire que ça en fait. Même la notion de langue, elle n’existe souvent pas dans les LLM (ça peut exister sur des surcouches par dessus par contre, pour justement ajouter dans le prompt des indications de langue, et ainsi maximiser les chances que la réponse soit générée dans la bonne langue).

Dans son modèle, les token qui correspondent à « merci » sont tout simplement sémantiquement très proches de ceux correspondant à « thank you ». Ce qui est logique, puisque on est bien sur la même sémantique. Et comme dans son corpus d’apprentissage y avait sans doute beaucoup plus d’images avec « thank you » qu’avec « merci », ce qu’elle génère va tendre vers « thank you ».

Pour la petite anecdote, cette absence de notion de langue était même à l’origine d’une attaque contre les filtres de certains services de génération d’image.

Le principe de ces filtres était généralement d’avoir une liste de mots clés interdits et de bloquer les prompts contenant ces mots clés. Simple et efficace.

Sauf que, avec le système de découpage du prompt en token pour le modèle de génération, on peut construire des mots qui pour le modèle ont le même « sens » que le mot d’origine, mais qui mixe des tokens de ce mot dans plusieurs langues. Et ainsi, ça passe à travers le filtre par liste noire de mots, tout en ayant le même « sens » pour le modèle. Parce que le modèle ne sait pas si un mot existe ou pas.

Par exemple, si la liste noire veut interdire la génération d’images de perroquet, dans la liste noire, il y aura perroquet, parrot, papagei, etc… Pour le modèle, par contre, des mots comme perrogei, papoquet, parragei ou perrot auront par contre un « sens » très proche de celui de perroquet. Et mèneront très probablement à la génération d’images de perroquets, tout en passant sans aucun problème à travers le filtre basique par liste noire.

Dans l’autre sens, on peut avoir le même genre d’aberrations dans les réponses produites (dans le cas d’un LLM), si on laisse une trop grande part d’aléas au modèle dans son choix du prochain token. Avec une part d’aléa raisonnable, après des token correspondant à des mots en français et le token « per », la probabilité de « roquet » pour la suite sera nettement supérieure à celle de « rot », et « rot » sera exclu d’office des tokens possibles si on configure le modèle pour piocher parmis les token dont la probabilité est au moins 90% (chiffre arbitraire, pour l’exemple) de celle du token le plus probable. Si par contre on configure le LLM pour aller jusqu’aux token ayant 50% (idem), il se peut que cette fois « rot » rentre dans le lot des tokens autorisés. Et hop, le LLM va se mettre à parler de « perrot » de temps en temps (pas systématiquement non plus, puisqu’il choisit plus ou moins aléatoirement parmi la liste de tokens ayant une probabilité suffisante, et souvent de façon pondérée en fonction des probabilités, donc entre « roquet » et « rot », il continuera quand même à choisir plus souvent « roquet »).