Encore une fois, ce n’est pas parce que le prompt te semble évident et précis pour toi, qui raisonne comme en humain, qu’il l’est forcément aussi pour une IA générative, qui ne fonctionne pas du tout de la même façon…
Une date, c’est quelque chose de très précis pour toi. Mais pas pour une IA générative, il faut être très descriptif. Parce que en gros, en simplifiant à l’extrême, le fonctionnement d’une IA générative d’image, c’est de produire une représentation numérique du prompt d’après sa base de connaissance, puis partir d’un bruit blanc, et de le modifier « aléatoirement » pour que la « signature » de l’image (éventuellement obtenue en demandant à un modèle de reconnaissance de faire une description de l’image) converge vers celle du prompt. Il n’y a pas une véritable compréhension des notions qui sont exprimées dans le prompt, juste une distance sémantique entre le prompt et l’image produite. Et pour un modèle, la distance sémantique entre « place de l’étoile » et « une place avec une statue » n’est pas forcément grande, donc ça peut converger…
Et plus tu met de détail dans le prompt, plus tu vas l’éloigner sémantiquement d’images trop génériques. Mais il faut aussi que ça soit des détails qui aient du sens par rapport aux labels qu’il y a dans sa base d’apprentissage… Et il y a probablement pas d’images labellisées « 15 août 1982 » ou « 3h du matin » dans sa base d’apprentissage, donc pour lui ça n’a aucun sens (et s’il y en a, ça sera pas la place de l’Étoile… ça sera sans doute des photos de calendriers et d’horloges )…
Cela dit, tu as dû être particulièrement mal chanceux, parce que avec ton prompt perso j’ai bien obtenu directement 4 images avec l’Arc de Triomphe de nuit :
Pour ce que tu veux, voici par exemple un prompt qui me donne une bien meilleure première approche : « Dessine moi l’Arc de Triomphe, au milieu de la place de l’Etoile, à Paris, une nuit d’été, dans les années 1980, avec très peu de voitures qui circulent. »
Et le résultat, c’est 4 images avec l’Arc de Triomphe, toutes de nuit. Peut-être encore un peu trop de voitures, et surtout, des voitures trop modernes pour les années 80. Et besoin d’un gros travail sur le ciel, pour éliminer cette voie lactée beaucoup trop visible (à noter qu’il a justement ajouté à mon prompte « et un ciel étoilé »…
Je lui ai donc fait la demande complémentaire suivante : « Les voitures doivent être des modèles plus anciens, ceux qui circulaient dans les années 80. Il faut également beaucoup moins d’étoiles dans le ciel. On ne doit pas voir la voie lactée. ».
Ce qu’il a converti en « ’Arc de Triomphe, au milieu de la place de l’Etoile, à Paris, une nuit d’été, dans les années 1980, avec très peu de voitures qui circulaient, et un ciel étoilé. Les voitures sont des modèles plus anciens, comme des Renault 5, des Peugeot 205 ou des Citroën 2CV. Le ciel est plus sombre et moins étoilé que dans l’image précédente. On ne voit pas la voie lactée »
Et hop, on a bien, à quelques exceptions près, des voitures des années 80, mais toujours cette voie lactée qui fait de la résistance. Et les plaques des voitures ne sont pas des années 80 (logo européen…), mais ça ça doit être difficile à éviter sans faire un affinage par zone, ce que Copilot Designer ne permet pas, parce que même pour les voitures des années 80, sa base d’apprentissage contient sans doute surtout des photos assez récentes, donc avec des plaques modernes…
Du coup, j’insiste, je réclame un ciel noir avec seulement quelques étoiles :
En passant en anglais et en insistant sur la réduction du nombre de voitures, j’obtiens finalement ça :
(prompt : “The Arc de Triomphe in the middle of the Place de l’Étoile in Paris. The scenes takes place during a summer night. The sky is totally dark, with only very few stars. There are only one or two cars from the 80’s on the road, for instance Renault 5, Peugeot 205 or Citroen 2CV.”)
Il y aurait encore des améliorations à faire, mettre les voitures dans une position plus réaliste, avec un conducteur, diversifier un peu les modèles de voiture et mettre seulement des voitures qui existent (là sur la gauche on a par exemple un joli croisement entre une 2CV et une 4L ), mais on atteint les limites de Copilot Designer, qui ne permet pas de modifier précisément une partie de l’image en conservant le reste.
Pour info, une conf à laquelle j’avais assisté il y a quelques temps, qui explique dans les grandes lignes comment ça marche et comment on peut travailler petit à petit une image avec des outils qui permettent de retravailler par zone : https://www.youtube.com/watch?v=oVMROk-Z5T4
On y voit aussi un point intéressant, la fameuse génération progressive de l’image à partir d’un bruit blanc, l’outil utilisé (le bot de Midjourney sur Discord) affichant les images intermédiaires au fil de la génération.