Commentaires : Zoomer sur une image floue ou pixelisée et y voir net ? Mission pas impossible selon Google

Un programme capable d’upscaler en cascade une image et de la faire passer d’une définition de 64 x 64 pixels à 1 024 x 1 024.

1 « J'aime »

Ce sont les myopes qui vont être contents…

1 « J'aime »

Impressionnant comment est-ce qu’il recréer de la matière et de la texture par exemple sur la photo du burger en 32 par 32 il n’y a pas autant de détails que ce que l’on peut retrouver sur la grande photo

1 « J'aime »

Cela peut surement créer une image détaillée (En tout cas à priori), mais on ne peut pas faire revenir une information qui a été perdue. Donc ce serait bien de faire un comparatif avec la vraie image en bonne définition

7 « J'aime »

Ca m’a donné envie d’aller au MacDo (en vrai !!) :disappointed_relieved:

1 « J'aime »

C’est possible aussi, tout depend de l’image originale et ce qu’il ya a recuperer

L’algorithme « imagine » une image plus détaillée, qui floutée donnerait l’image basse résolution donnée en entrée. Ce n’est pas exactement l’image de départ avant réduction de résolution (ce serait impossible à cause de la perte d’information). Le résultat ne fait que ressembler à une image originale potentielle.

2 « J'aime »

Wen84 a cependant raison sur 2 points :

  • il serait intéressant de pouvoir comparer les 2 photos (celle d’origine et celle recréée)
  • et il est vrai aussi qu’on ne peut pas recréer une information perdue.

Ici les 2 technologies (SR3 et CDM) permettent de simuler un rendu en plus haute définition avec une approche de raffinement itérative couplée à de l’intelligence artificielle. C’est impressionnant et bien sûr Google ne prétend pas « recréer » la photo d’origine. Même si le résultat pourrait être 100% identique (à l’oeil nu).

2 « J'aime »

La première image il y a la photo de référence, il faut penser à bien regarder.
Cela dit rien de nouveau. Il y a des gars qui font des remasters de jeux anciens en utilisant IA pour la reconstruction d’images en haute résolution parfois le résultat est spectaculaire : Final Fantasy 9 Remastered – Original vs. Moguri AI Graphics Mod Comparison - YouTube

On n’oubliera pas le film des Frères Lumières « La Ciotat » remasterisé en haute résolution grâce à l’IA etc.
En fait il faudrait plutôt comparé cet algorithme avec ceux déjà existant.

1 « J'aime »

C’est un peu ce que fait la première image aussi en comparant aux méthodes Regression et Bi-cubique. Mais effectivement il manque les autres qui sont mentionnés.

Par contre j’ai pas compris le taux de confusion, c’est le pourcentage d’humains qui se laissent bernés par l’upscaling en ne distinguant pas la différence avec l’originale ?

" We compare SR3 with existing methods using human evaluation study. We conduct a Two-Alternative Forced Choice Experiment where subjects are asked to choose between the reference high resolution image, and the model output when asked the question, “Which image would you guess is from a camera? ” We measure the performance of the model through confusion rates (% of time raters choose the model outputs over reference images, where a perfect algorithm would achieve a 50% confusion rate)."

(source : l’article Google originel)

Donc oui, le ratio d’humain qui ne sont pas capables de choisir entre les 2 photos. Mais le but est de voir si l’algorithme de Google fait mieux que ces 2 concurrents principaux (PULSE and FSRGAN). Et la réponse est aussi oui.

Si j’ai bien compris, ils en parlent à la fin de l’article, sr3 arrive à générer une image proche jusqu’à 50%, si j’ai bien compris

ils créent de l’information qui n’existait pas au départ. donc méfiance

Incroyable, les réseaux de neurones « imaginent » du détail qu’ils n’ont pas.
C’est impressionnant. Je pense que les neurones sont entrainés avec des photos de visage pour savoir comment remplir les blancs. On ne peut pas utiliser cet algo avec n’importe quel type d’image il faut l’entrainer d’abord non ?

1 « J'aime »

C’est un peu l’idée, sauf que l’entrée est en fait l’image full res mais bruitée. Les « carrées » produits en augmentant la résolution sans interpoler les pixels d’une image sont vus comme du bruit, et le réseau de neurones essaye d’éliminer ce bruit.

SR3 is a super-resolution diffusion model that takes as input a low-resolution image, and builds a corresponding high resolution image from pure noise. The model is trained on an image corruption process in which noise is progressively added to a high-resolution image until only pure noise remains. It then learns to reverse this process, beginning from pure noise and progressively removing noise to reach a target distribution through the guidance of the input low-resolution image…

Et en plus elle est appliquée en cascade : à chaque itération l’algo double la résolution - c’est ce qui est représenté par ce gif :

Et ça ne m’étonnerai pas que l’on retrouve ça dans GCam pour le zoom…

1 « J'aime »

Tous ces embellissement via algo et IA font des rendus impressionnants, ils n’en demeure pas moins que c’est du c’est du travestissement. L’agrandissement n’est pas l’originale.
J’ai testé ‹ heritage › qui fait des embellissements de fou de vieilles photos (embellissement, coloration etc) et même si, encore une fois, les résultats sont impressionnants. Ils ne sont pas forcément fidèle à la réalité. En cela ces technologies me gênent.

J’ai superposé les images générées avec l’original, on voit bien que l’algo « imagine » fortement les détails - les rides, la paupière zoomée, les tâches du léopard etc. n’ont pas grand chose à voir avec le réel mais donne un résultat visuellement satisfaisant :
(cliquer pour grossir l’image)

4 « J'aime »

Ce n’est pas la 1ère fois que Google arrive à Upscaler une image de basse définition (genre 16 x 16 px) en une autre de haute définition (genre 1024 x 1024 px).

J’avais déjà vu des news sur le sujet il y a plus de 5 ans déjà, c’est pour ça que quand je vois des documentaire / reportage oèu les journalistes « masquent » les visages avec des gros pixels, je me dis toujours qu’ils ne savant pas ce qu’ils font.

Je pense que ce qui est nouveau ici, c’est que l’upscaling a lieu sur des images « flouté » avec un flou « Gaussien » plutôt que « pixélisé ». Les autres upscaling concernaient des images en très basse définitions uniquement (c’est à dire des « images avec des gros pixels », bien que par définition, un pixel logique n’est pas de taille mais on se comprend).

La taille des fichiers photos va pouvoir être plus petite alors … et si on veut un petit agrandissement on utilise cette techno

Et du coup les autres méthodes IA ne sont pas capable d’éliminer le bruit ? Du coup effectivement là ça serait intéressant (et si ça peut éliminer les macroblocks des compressions trop accentuées style jpeg).