Moins d’une chance sur cent d’obtenir deux fois la même liste de marques. Moins d’une sur mille dans le même ordre. Une étude publiée tout récemment par Rand Fishkin et Gumshoe.ai le documente après 3 000 réponses collectées sur ChatGPT, Claude et Google AI.
Cela veut dire qu’il y a beaucoup de monde qui ne comprent pas comment fonctionnent les LLM : ce sont des modèles prédictifs qui ciblent un pool de réponses probables (comprendre un nuage probabiliste de points) en fonction du contenu de la question ou de la demande (le prompt). Il suffit parfois d’un changement apparemment anodin pour changer de pool et avoir une réponse différente. D’autre part, la façon de présenter un pool de données ciblé peut varier pour des raisons purement arbitraires du fait que ce sont justement des données probabilistes.
Le problème est que tout le monde se jette sur les LLM en les appelant IA sans avoir la moindre idée de ce qu’il se passe vraiment. Un LLM ne génère pas une réponse. Un LLM génère la réponse la plus probable de correspondre à la demande.
Et même pas forcément besoin de changer quoi que ce soit en fait.
À de rares exceptions près, il y a toujours une petite part d’aléatoire dans le choix du token suivant (en simplifié, ça va par exemple prendre un token aléatoire parmi les 10 les plus probables), et ce répété à chaque nouveau token, donc ça peut parfois diverger assez rapidement, en partant pourtant strictement du même prompt initial.
Les calculatrices ne sont pas toujours précises.
Au final, peu importe que la réponse soit vraie, l’important est que l’utilisateur la trouve convaincante.
Je précise que j’ironise.
La précision n’a rien à voir avec la reproductibilité… ![]()
Les LLM ne sont ni précises ni fiables par essence.
Et quand on demande la même chose à 100 personnes, c’est pareil non ?
Mais pour Rand Fiskin, attribuer un classement dans un système non-déterministe, c’est vendre quelque chose qui n’existe pas
Je ne vois pas le problème. Ils peuvent très bien sortir des stat d’un système probabiliste.
Le pire, c’est que si on prend le temps d’aborder la question avec le chatbox, on peut avoir des explications très précises sur ces questions là.
J’en ai fait l’expérience avec Chatgpt dont je me sers dans la préparation de mon loisir de jdr sur table virtuelle : création de tokens, de pnj, d’illustration, mise en page du contenu, etc.
J’ai tenté la génération des maps en vue de dessus et j’avais des résultats très aléatoires pour des mêmes prompts. J’ai passé des heures avec Chatgpt pour comprendre ce qu’il se passait. Et comme vous le disiez, un même prompt pouvait générer des choses très différentes. C’est à ce moment là que j’ai fait mes recherches et que j’ai approfondi la chose et que j’ai mis en perspective la notion de modèle probabiliste.
Ce que je veux dire, c’est que je suis péquin lambda. A plus haut niveau, et surtout à niveau professionnel, on ne devrait pas s’attendre au raccourci LLM = IA = données factuelles certifiées… ça fait très peu professionnel en fait.
En fait, la partie aléatoire, c’est pour l’apprentissage.
Pour l’inférence ce n’est plus aléatoire du tout on passe de poids en poids, selon la valeur fixe de ces points.
Une question identique, avec un seed fixé, sur une même version du modèle donnera exactement la même réponse. Ce qui est aléatoire, et qui rend donc la réponse « aléatoire », c’est le choix du token.
Ne pensez-vous pas, qu’avec l’arrivée des modèles publicitaires sur les LLM, la visibilité sur le volume « d’impression » des marques va être fournie par les outils eux même (comme c’est le cas avec Google Ads) ?