ChatGPT, DALL·E, Midjourney, Bard, Stable Diffusion… On ne sait plus où donner de la tête entre les intelligences artificielles génératives qui inondent nos écrans. Parmi celles qui permettent de créer des visuels, les leaders sont sans conteste Midjourney et DALL·E 3. Les deux ont un fonctionnement similaire : il suffit d’écrire une instruction appelée « prompt » en langage naturel pour que des images soient produites.
Ces IA comme DALL-E ou Midjourney ont l’avantage d’avoir une visibilité pour le grand public, ce qui est indéniablement un plus. Par contre, Stable Diffusion permet selon moi d’aller plus loin dans la génération d’images avec une multitude d’outils, de modèles et plugins. Une fois installé localement (certes, il est nécessaire d’avoir une certaine configuration notamment au niveau de la carte graphique), cela devient vraiment un outil très pointu.
Par exemple :
- Pouvoir générer des images d’une plus grande résolution, notamment aussi avec de l’upscaling basé lui-même sur l’IA.
- Utiliser des photos ou dessins pour guider la génération (ControlNet), cela donne des possibilités créatives immenses.
- Possibilité d’ajouter des objets, d’en supprimer, etc (fonction InPaint)
Le tout dans un logiciel open source, gratuit, avec une interface Web locale très bien réalisée.
Il existe pas mal de tutos sympa pour l’installer et l’exploiter au maximum et une grande communauté sur Reddit par exemple.
Merci pour le tuyau ! Qu’entends-tu par GPU costaud ? J’ai toujours une Vega 56 et apparemment on peut générer une image en 3 minutes. Aucune idée des paramètres, j’ai vu ça vite fait sur YouTube. Ça me semble raisonnable, si le modèle vise juste et qu’on passe pas son temps à peaufiner.
Sinon, le gros souci avec DALL-E c’est la perte de cohérence. On lui demande de retoucher un point mineur, et il fait une interprétation totalement erronée, ou alors c’est moi qui l’utilise mal, mais des fois je passe à côté d’images superbes…
J’ai une RTX 3050 (4 Go de VRAM) sur un PC portable avec 16 Go de RAM. Et je peux générer une image en 1920x1080 en 3 à 4 minutes en utilisant la résolution de base de 960x540 et un upscale X2 pour avoir la pleine résolution, avec le plugin Tiled VAE pour économiser un peu de VRAM. Et avec cette configuration, j’ai du adapter les paramètres de configuration de Stable Diffusion avec
set COMMANDLINE_ARGS=--xformers --lowvram
Il faut parfois un peu essayer différents paramètres et expérimenter.
Merci beaucoup, je vais tester avec des paramètres similaires !