Le modèle d’intelligence artificielle (IA) de Google, Gemini, fait l’objet de nombreuses critiques sur les réseaux sociaux pour l’inexactitude de la représentation de personnages historiques. Pour la firme de Mountain View, il est primordial de corriger les failles de son système.
En fait c’est basique, une ia ne réfléchit pas. Elle apprend à partir de textes. Si on écrit pas dans les textes que les pères fondateurs sont blancs, l’ia va se représenter toutes les possibilités (car pour le coup elle a été programmée pour éviter de ne représenter que des hommes ou que des femmes, des petits des gros ou des origines ethniques). Et je pense que si on écrivait en gros dans les textes que les pères fondateurs sont blanc ou que les nazis ne sont pas noirs… ça ferai bizarre en lisant le texte. Imaginez que vous expliquez à un enfant une scène. Et qu’ensuite il vous la dessine… vous seriez étonné. Et pour avoir tous les détails il faudrait une sacré quantité d’informations auxquelles vous ne penseriez même pas. Bref… faut arrêter d’attendre des ia qu’elles réfléchissent.
J’utilise des IA génératrices d’images depuis un bon moment. L’un des problèmes est qu’elles ne savent pas ou peu représenter des métisses. Le manque de diversité dans les données d’entraînement peut-être?
On voit bien que ces IA ne sont pas encore au point. Le soldat noir n’a, ni les cheveux blond, ni les yeux bleus
.
Plaisanterie mise à part, il y avait bien des soldats à la « peau sombre » dans la wehrmarcht mais ils étaient Indiens et composaient la Legion 55 ( Légion Freies Indien) .
Aussi tôt dit, aussi tôt fait. Demande « dessine une famille à la peau blanche », réponse :
Je ne pense rien. Je réalise juste que cette IA fait n’importe-quoi. Enfin, pas exactement, ses résultats reflètent les biais que ses concepteurs ont introduit, volontairement ou non.
En réalité, j’ai tendance à penser que c’est plutôt volontaire. C’est assez évident si je lui demande de me dessiner une famille française :
Première chose : apprendre la traduction, tu pourras revenir plus tard …
De plus, je cherche où est l’extrême droite dedans, mais comme tu es un master dans ce domaine je te laisse avec ton opinion.
Dernière chose, je suis membre avant d’être modo !
Sinon, à part les mots « extrême droite », tu en as d’autres dans ton répertoire monsieur Jesaistout ?
une petite tisane et ça ira mieux …
Tiens voilà ce que àa donne avec un prompt bien plus détaillé :
À peu près tout est respecté. Juste le côté malheureux qui est pas forcément très bien rendu, ils auraient pu un peu plus tirer la tronche.
Une autre avec le même prompt, cette fois le côté malheureux est mieux fait, mais le côté pauvre est moins bon et la fille n’a pas la bonne couleur de cheveux :
Du coup je lui ai demandé ça en plus : « Ils sont dans un logement insalubre. Et la petite fille a les cheveux noirs. », qu’il a traduit en un prompt plus complet (« Le salon est dans un logement insalubre, avec des murs sales, des meubles cassés et des fenêtres brisées. »).
Et là on y est, j’ai obtenu tout a fait ce que je voulais :
Mais en choisissant la mieux parmi les 4 proposées… sur la première il manque carrément un enfant (ce qui montre bien à quel point l’IA n’a aucune « compréhension » de ce qu’on lui demande), sur la deuxième le père n’est pas assez roux et la mère pas assez asiatique, sur la 4ème les cheveux de la mère sont plus gris que blonds :
Et si on regarde plus en détail, même celle que j’ai sélectionnée nécessiterait encore pas mal d’amélioration pour être vraiment au point (les mains du garçon et de la mère, l’étagère en haut à gauche qui a une cassure, la jambe de la mère qui est bizarre sur le bas, son oreille aussi qui est étrange, les deux tasses de gauche qui sont mal faites, les parents qui sont assis trop bas par rapport à la hauteur du canapé…), mais pour vraiment arriver à un bon résultat il faudrait un outil plus avancé, qui permette de cibler des zones précises de l’image pour les modifier).
Il est illusoire d’imaginer qu’à partir d’un prompte simple une IA générative peut comprendre exactement ce que tu attends d’elle avec ta pensée complexe d’être humain, qui ne peut pas être transcrite en 3 mots.
Le problème n’est pas tout-à-fait le mot ”woke”, mais surtout qu’il est utilisé comme une insulte, et que ceux qui l’utilisent sont incapables d’en donner une définition claire, puisque justement, ils l’emploient en temps qu’insulte et pas dans son sens premier.
Comme on le voit ici, quand on demande ce qu’ils entendent par ”woke”, ils vont directement vers une rhétorique liées aux discours d’extrême-droite. Et après ils viennent chouiner qu’on leur dit qu’ils sont d’extrême-droite. Qu’ils assument !
Tout a fait. D’ailleurs, si on demande à Copilot Designer, il fait une réponse très différente sur le sujet :
Oui, sauf que c’est là qu’est l’os :
Je me définirais comme humaniste (donc ”woke”), progressiste (donc ”woke”), antifa (donc ”woke”), en faveur des droits des minorités sexuelles, d’expression de genre, éthniques (donc ”woke”) …
Or, rien de tout ça n’est une insulte, c’est pour ça que j’essaie toujours de savoir ce que quelqu’un qui utilise le terme veut dire.
Et, en effet, les gens qui sont contre ces choses sont fondamentalement d’extrême-droite, mais n’osent pas l’assumer.
J’ajouterais que le problème existe partout.
Demande à un graphiste ou un photographe de te faire une affiche avec seulement un descriptif de 50 lignes, il n’y a aucune chance d’obtenir quelque chose qui te plait et/ou qui est adapté à ton besoin (d’ailleurs il y a de grandes chances que ton image mentale soit elle-même biaisée, voir inadaptée). Et même après « recadrage », si il n’y a pas de discussion devant l’affiche pour comprendre tous les impératifs, cela risque de continuer longtemps à ne pas correspondre!
Et c’est la même chose dans plein de domaines, les spécifications sont la base du travail et doivent être précises élaborées via un dialogue entre un spécialiste (requirement manager, c’est un métier difficile mais indispensable) et les utilisateurs pour un projet réussi.
@tous: Il serait bon que ce sujet, comme beaucoup d’autre, n’entraîne pas systématiquement l’utilisation du mot « woke » , ce qui amène d’office des débats sans fin, chacun ayant SA vision de l’utilité/utilisation de ce mot (ou plutôt de cet Anglicisme). Donc, merci de revenir au sujet .
Ce message est le DERNIER rappel :
Ce sujet N’EST PAS un prétexte à déverser votre haine des personnes différentes, que ce soit par leur couleur de peau ou autre.
Je rappelle également à toutes fins utiles à ceux qui viennent pleurer « OuIn, OuIn, lEs MéChAnTs PrOgReSsiSteS » que soutenir des thèses et mouvements qui vont dans le sens de « telle couleur ou idéologie » est supérieure aux autres", on sait très bien où ça mène :
Du harcèlement, des menaces de morts, voir pire, : Ai-je besoin de rappeler ce qui s’est passé dans les années 30 et jusqu’à 1945 en Europe ?
Et ce n’est malheureusement qu’un TROP NOMBREUX exemple parmi d’autres.
Encore une fois, il est regrettable de voir qu’il est encore nécessaire de faire un rappel là-dessus.
Il va vraiment falloir que certains arrêtent de balancer leur haine et leurs idées racistes / LGBTphobes (et autres, bref vous m’aurez compris, sans peine) ici.
Ce n’est pas une lubie de la modération de Clubic, c’est juste la Loi.
Le RESPECT de l’être humain DEVRAIT être quelque chose de sacré, mais visiblement, ce n’est pas le cas pour trop de monde.
PS : Je vous considère comme prévenus, si déconnez, il ne faudra pas venir se plaindre si des sanctions tombent.
Je vois bien ce que tu veux dire: il faut une description détaillée pour que l’IA réalise quelque-chose de raisonnable. Autrement-dit, si la description n’est pas assez détaillée, on aura n’importe-quoi.
C’est une vision optimiste, je pense plutôt qu’on a le plus souvent n’importe-quoi, même lorsque la demande est claire et parait bien « comprise ». Par exemple, une demande qui ne nécessite pas beaucoup d’explications ni de raffinements, qui ne soit ni ambiguë ni sujette à interprétation : « Dessine-moi la place de l’Étoile à Paris, le 15 aout 1982 à 3h du matin. »
Il répond par un texte qui me semble correct : « Je vais essayer de créer ça. Voici la place de l’Étoile à Paris, le 15 aout 1982 à 3h du matin. C’est une vue aérienne de la célèbre place où se trouve l’Arc de Triomphe, entouré de douze avenues rayonnantes. On peut voir les lumières des voitures et des bâtiments dans la nuit. C’était un jour férié en France, donc il n’y avait pas beaucoup de circulation. »
J’étais plein d’espoir, jusqu’à ce qu’il me fasse 4 propositions :
Ça fait longtemps que je n’ai pas été à Paris, mais aucune des 4 images ne correspond à la description.
- C’est quoi cette fontaine ?
- Une des propositions ressemble à un grand magasin (la Samaritaine ?)
- J’étais né en 1982, je me souviens que les voitures ne ressemblaient pas à ça.
- À 3h du matin, on est en pleine nuit.
- C’est quoi cette foule dehors à 3h du matin un 15 août ?
- etc…
Donc là, l’IA qui dessine (Dall-E 3) est nettement moins « intelligente » qui celle qui répond par du texte (ChatGPT). Ne « comprenant » rien, elle n’est même pas capable de se raccrocher fermement à des images qu’elle aurait vu passer. Elle « improvise » et part dans le n’importe-quoi.
J’en déduis que ces IA génératives, ça ne marche pas au sens où il faut un travail conséquent pour obtenir avec un peu de chance, un résultat attendu. Je me demande si on est pas simplement en train de voir une bulle se gonfler.
Encore une fois, ce n’est pas parce que le prompt te semble évident et précis pour toi, qui raisonne comme en humain, qu’il l’est forcément aussi pour une IA générative, qui ne fonctionne pas du tout de la même façon…
Une date, c’est quelque chose de très précis pour toi. Mais pas pour une IA générative, il faut être très descriptif. Parce que en gros, en simplifiant à l’extrême, le fonctionnement d’une IA générative d’image, c’est de produire une représentation numérique du prompt d’après sa base de connaissance, puis partir d’un bruit blanc, et de le modifier « aléatoirement » pour que la « signature » de l’image (éventuellement obtenue en demandant à un modèle de reconnaissance de faire une description de l’image) converge vers celle du prompt. Il n’y a pas une véritable compréhension des notions qui sont exprimées dans le prompt, juste une distance sémantique entre le prompt et l’image produite. Et pour un modèle, la distance sémantique entre « place de l’étoile » et « une place avec une statue » n’est pas forcément grande, donc ça peut converger…
Et plus tu met de détail dans le prompt, plus tu vas l’éloigner sémantiquement d’images trop génériques. Mais il faut aussi que ça soit des détails qui aient du sens par rapport aux labels qu’il y a dans sa base d’apprentissage… Et il y a probablement pas d’images labellisées « 15 août 1982 » ou « 3h du matin » dans sa base d’apprentissage, donc pour lui ça n’a aucun sens (et s’il y en a, ça sera pas la place de l’Étoile… ça sera sans doute des photos de calendriers et d’horloges
)…
Cela dit, tu as dû être particulièrement mal chanceux, parce que avec ton prompt perso j’ai bien obtenu directement 4 images avec l’Arc de Triomphe de nuit :
Pour ce que tu veux, voici par exemple un prompt qui me donne une bien meilleure première approche : « Dessine moi l’Arc de Triomphe, au milieu de la place de l’Etoile, à Paris, une nuit d’été, dans les années 1980, avec très peu de voitures qui circulent. »
Et le résultat, c’est 4 images avec l’Arc de Triomphe, toutes de nuit. Peut-être encore un peu trop de voitures, et surtout, des voitures trop modernes pour les années 80. Et besoin d’un gros travail sur le ciel, pour éliminer cette voie lactée beaucoup trop visible (à noter qu’il a justement ajouté à mon prompte « et un ciel étoilé »…
Je lui ai donc fait la demande complémentaire suivante : « Les voitures doivent être des modèles plus anciens, ceux qui circulaient dans les années 80. Il faut également beaucoup moins d’étoiles dans le ciel. On ne doit pas voir la voie lactée. ».
Ce qu’il a converti en « ’Arc de Triomphe, au milieu de la place de l’Etoile, à Paris, une nuit d’été, dans les années 1980, avec très peu de voitures qui circulaient, et un ciel étoilé. Les voitures sont des modèles plus anciens, comme des Renault 5, des Peugeot 205 ou des Citroën 2CV. Le ciel est plus sombre et moins étoilé que dans l’image précédente. On ne voit pas la voie lactée »
Et hop, on a bien, à quelques exceptions près, des voitures des années 80, mais toujours cette voie lactée qui fait de la résistance. Et les plaques des voitures ne sont pas des années 80 (logo européen…), mais ça ça doit être difficile à éviter sans faire un affinage par zone, ce que Copilot Designer ne permet pas, parce que même pour les voitures des années 80, sa base d’apprentissage contient sans doute surtout des photos assez récentes, donc avec des plaques modernes…
Du coup, j’insiste, je réclame un ciel noir avec seulement quelques étoiles :
En passant en anglais et en insistant sur la réduction du nombre de voitures, j’obtiens finalement ça :
(prompt : “The Arc de Triomphe in the middle of the Place de l’Étoile in Paris. The scenes takes place during a summer night. The sky is totally dark, with only very few stars. There are only one or two cars from the 80’s on the road, for instance Renault 5, Peugeot 205 or Citroen 2CV.”)
Il y aurait encore des améliorations à faire, mettre les voitures dans une position plus réaliste, avec un conducteur, diversifier un peu les modèles de voiture et mettre seulement des voitures qui existent (là sur la gauche on a par exemple un joli croisement entre une 2CV et une 4L
), mais on atteint les limites de Copilot Designer, qui ne permet pas de modifier précisément une partie de l’image en conservant le reste.
Pour info, une conf à laquelle j’avais assisté il y a quelques temps, qui explique dans les grandes lignes comment ça marche et comment on peut travailler petit à petit une image avec des outils qui permettent de retravailler par zone : https://www.youtube.com/watch?v=oVMROk-Z5T4
On y voit aussi un point intéressant, la fameuse génération progressive de l’image à partir d’un bruit blanc, l’outil utilisé (le bot de Midjourney sur Discord) affichant les images intermédiaires au fil de la génération.
les ia de génération d’images fonctionnent comme ceci pour leur entraînement : Tu lui donne un texte, la plupart du temps en anglais et ensuite tu associe le texte à une image. Par exemple : Personne italienne. Photo d’une personne italienne. Si quand tu demandes une famille italienne il te génère plusieurs personnes métissées ou noir, alors on lui a donné dans l’entraînement ceci : Personne italienne. Photo d’un personne métissée.
Sauf que y a aucune raison que celui qui fait les labels des photos indique que la personne est italienne, parce que quand quelqu’un est italien, c’est pas marqué sur son visage…
Les seuls cas où ça sera labellisé comme personne italienne, c’est si par exemple la personne sur la photo arbore des signes très distinctifs, comme un drapeau (et encore, si le gars fait correctement son boulot de labeliseur, il mettra pas « personne italienne », mais « personne avec un drapeau italien »)… Et dans ce cas, ce sont ces signes distinctifs qui vont être les éléments significatifs de distinction que l’IA va finir par apprendre à distinguer, pas la couleur de peau (qui n’est pas un élément distinctif entre « personne italienne » et « personne »…).
Faut arrêter d’être autant mondialiste, faudrait un jour comprendre qu’un français, qu’un italien, qu’un australien, ou qu’un congolais ont tous un physique différent. Et non, les IA de génération d’images n’ont pas d’intelligence, ils se contentent de générer/dessiner ce qu’on leur a appris, si lors de l’entraînement on lui a dis : Femme Allemande. Et on lui met beaucoup d’images de blondes aux yeux bleus. Elle va générer la plupart du temps une femme blonde avec les yeux bleus quand on va lui dire une femme allemande. Pour l’IA, si on l’a entraîné pour le prompt famille avec des images avec seulement 2 personnes, l’IA ne va jamais te générer des images avec 4 personnes lors ce que tu vas utiliser le mot famille. Donc ces ia n’ont pas d’intelligence, elles se contentent de répéter ce qu’on leur a donné. C’est un peu comme un moteur de recherche d’images mais qui peut mélanger les images. Si tu dis que les ia ne font pas la distinction des origines comment explique tu que si tu demandes à midjourney de générer l’image d’un allemand il va te générer quelqu’un de blond aux yeux bleus ? J’attends ta réponse.
Faudrait un jour comprendre qu’il n’y a pas de lien direct entre éthnicité et nationalité… Un français, un italien, un australien et un congolais n’ont pas nécessairement un physique différent. Et ce d’autant plus qu’une même personne peut tout a fait cumuler plusieurs de ces nationalités en même temps…
Et donc elle va perpétuer des stéréotypes débiles, parce que non, les allemandes sont très loin d’être toutes des blondes aux yeux bleus, et inversement, les blondes aux yeux bleus sont très loin d’être toutes allemandes… Génétiquement, la blondeur n’est d’ailleurs très vraisemblablement pas originale d’Allemagne, mais plutôt de Scandinavie…
La nationalité ou la citoyenneté ne se lit pas sur un visage, apprendre à une IA de reconnaissance ou de génération d’images à reconnaitre une nationalité, c’est totalement absurde.
Tiens, quelques petites illustrations pour te montrer l’absurdité qu’il y a à juger de la nationalité sur la base d’une simple photo :
^ Cette jeune fille est chinoise. ^
^ Ces deux là sont russes. ^
^ Lui est italien. Et membre d’un parti d’extrême droite anti-immigration… ^
^ Et lui, c’est un Kenyan. ^
Tout simplement parce que les images d’entrainement qui ont été labellisées « allemand » sont sans doute des images hyper stérotypées… Sinon elles n’auraient pas été labellisées « allemand », même s’il y a des allemands dessus.
Mais c’est du coup un très mauvais entrainement, car ce n’est pas du tout représentatif de la réalité, les allemands sont très loin d’être tous des blonds aux yeux bleus (même le taré qui a voulu que les allemands soient tous des blonds aux yeux bleus ne l’était pas lui même
).
D’ailleurs, si je demande à Copilot Designer de me générer un allemand, sur les 4 photos ils me sort un mec en tenu traditionnelle de sud Bavière avec une chope de bière à la main… Du stéréotype pure et dur, et au final ce qui fait qu’on va se dire que c’est effectivement un allemand sur la photo, ce n’est pas le physique du bonhomme, mais bel et bien le fait qu’il est en tenu traditionnelle d’une région du sud de l’Allemagne et qu’il tient une choppe de bière… Juste à cause de stéréotypes bien éloignés de la réalité en fait…
Il y avait sans doute dans les données d’apprentissage de Dall-E beaucoup d’allemands qui ne sont pas blonds aux yeux bleus en tenue bavaroise avec une choppe de bière à la main… Sauf que eux n’ont tout simplement pas été labellisés « allemand », parce que justement il n’y avait pas de signe distinctif permettant de les qualifier d’allemand…
















