Upscaling (Super-Résolution IA)

L’upscaling IA (ou super-résolution) est une technique qui agrandit une image en augmentant sa résolution tout en générant des détails réalistes grâce à des réseaux de neurones, produisant des résultats nettement supérieurs à l’interpolation classique (bicubique, bilinéaire).

Type: Augmentation de résolution par intelligence artificielle
Modèles principaux: Real-ESRGAN, ESRGAN, SwinIR, LDSR, 4x-UltraSharp
Facteurs d’agrandissement: 2× à 8× (voire 16× en multi-passes)
Architecture: GAN (Generative Adversarial Network) ou Transformer
Intégration SD: AUTOMATIC1111 (extras/scripts), ComfyUI, Forge
Outils standalone: Upscayl (gratuit), Topaz Gigapixel AI, Adobe Super Resolution
VRAM: ~2-6 Go selon le modèle et la taille de l’image

Qu’est-ce que l’upscaling IA ?

L’upscaling IA (aussi appelé super-résolution) résout un problème fondamental de l’imagerie numérique : quand vous agrandissez une image, les méthodes classiques (bicubique, Lanczos) ne font qu’interpoler les pixels existants, ce qui produit des résultats flous et sans détails. L’upscaling IA, lui, génère de nouveaux détails qui n’existaient pas dans l’image originale en s’appuyant sur ce que le réseau de neurones a appris pendant son entraînement sur des millions d’images haute résolution.

Concrètement, un modèle d’upscaling IA prend une image basse résolution en entrée et produit une version agrandie (typiquement 2× ou 4×) avec des textures nettes, des contours précis et des détails réalistes. Le résultat est visuellement plus proche d’une « vraie » photo haute résolution que d’un simple zoom numérique.

L’upscaling est une étape incontournable dans les workflows de génération d’images par IA. Les modèles de diffusion comme Stable Diffusion génèrent à leur résolution native (512×512 pour SD 1.5, 1024×1024 pour SDXL), ce qui est insuffisant pour l’impression, le marketing ou l’affichage sur écrans haute résolution. L’upscaling comble cet écart en portant les images à 2K, 4K ou au-delà.

Les grandes familles de techniques d’upscaling

Interpolation classique (non IA)

Avant l’IA, l’agrandissement d’image reposait sur des algorithmes mathématiques d’interpolation : plus proche voisin (pixelisé), bilinéaire (flou mais lisse), bicubique (meilleur compromis classique), et Lanczos (le plus net des classiques). Ces méthodes ne créent aucune information nouvelle : elles devinent les pixels manquants en moyennant les pixels voisins. Le résultat est toujours plus flou que l’original, et l’écart se creuse avec le facteur d’agrandissement.

Upscaling par GAN (ESRGAN, Real-ESRGAN)

La révolution est venue des GAN (Generative Adversarial Networks) appliqués à la super-résolution. L’idée : entraîner un réseau générateur à produire des images haute résolution à partir d’images basse résolution, et un réseau discriminateur à distinguer les vrais détails des faux. L’adversité entre les deux réseaux pousse le générateur à produire des résultats de plus en plus réalistes.

ESRGAN (Enhanced Super-Resolution GAN, 2018) a introduit les blocs RRDB (Residual-in-Residual Dense Blocks), une architecture qui préserve les détails fins tout en réduisant les artefacts. C’est le fondement de la plupart des modèles d’upscaling modernes.

Real-ESRGAN (2021, Xinntao/Wang et al.) a franchi un cap majeur en s’attaquant spécifiquement aux images « réelles » : photos compressées, images bruitées, captures d’écran avec des artefacts JPEG. Là où ESRGAN suppose une dégradation simple (redimensionnement), Real-ESRGAN modélise des dégradations complexes (compression multiple, bruit, artefacts de ringing) et apprend à les corriger. En pratique, Real-ESRGAN produit des résultats nettement supérieurs sur les photos du monde réel et les images générées par IA.

Pourquoi Real-ESRGAN est si bon Son secret : un processus d’entraînement en deux étapes de dégradation. Les images d’entraînement subissent deux cycles successifs de dégradation (flou, bruit, compression JPEG, redimensionnement) pour simuler les conditions réelles. Cela permet au modèle de gérer les artefacts cumulés que l’on trouve dans les photos réelles, partagées et recompressées plusieurs fois sur les réseaux sociaux.

Upscaling par Transformer (SwinIR)

SwinIR (2021) applique l’architecture Swin Transformer (transformers à fenêtres glissantes) à la super-résolution. Il capture des dépendances longue portée dans l’image, ce qui lui donne un avantage pour les textures régulières et les structures répétitives. SwinIR produit des résultats légèrement différents des GAN : moins de « hallucination » de détails, mais parfois un aspect plus lisse. Il est disponible comme upscaler dans AUTOMATIC1111 et ComfyUI.

Upscaling par diffusion (SD Upscale, LDSR)

Les modèles de diffusion offrent une approche alternative à l’upscaling. Au lieu de simplement agrandir, ils régénèrent l’image à une résolution supérieure en utilisant le processus de débruitage guidé par l’image originale. Deux méthodes populaires :

SD Upscale (script AUTOMATIC1111) : découpe l’image en tuiles, applique img2img à faible denoising (0.2-0.4) sur chaque tuile à une résolution plus grande, puis les recombine. Le résultat est une image agrandie avec des détails générés par le modèle de diffusion, pas par un GAN.

Ultimate SD Upscale (extension AUTOMATIC1111) : une version améliorée de SD Upscale avec une meilleure gestion des coutures entre les tuiles, un support des masques, et la possibilité de combiner avec un upscaler classique (Real-ESRGAN comme premier passage, puis SD comme second passage de détail).

LDSR (Latent Diffusion Super Resolution) : un modèle de diffusion spécifiquement entraîné pour la super-résolution. Il produit d’excellents résultats mais est nettement plus lent que Real-ESRGAN car il effectue un processus complet de débruitage.

Comparatif des modèles d’upscaling

Modèle	Architecture	Vitesse	Qualité photo	Qualité anime/illustration	Taille fichier
Real-ESRGAN x4plus	GAN (RRDB)	Rapide	Excellente	Bonne	~67 Mo
Real-ESRGAN x4plus anime	GAN (RRDB)	Rapide	Moyenne	Excellente	~17 Mo
4x-UltraSharp	GAN (RRDB)	Rapide	Excellente	Très bonne	~67 Mo
SwinIR	Transformer	Moyen	Très bonne	Bonne	~12 Mo
LDSR	Diffusion	Lent	Excellente	Très bonne	~2 Go
SD Upscale (script)	Diffusion (tuiles)	Lent	Très bonne (dépend du checkpoint)	Très bonne	Utilise le checkpoint chargé

Le verdict : Real-ESRGAN x4plus est le standard de l’industrie pour un bon rapport qualité/vitesse sur les photos et les images générées par IA. 4x-UltraSharp (un modèle communautaire populaire) offre des résultats souvent perçus comme encore plus nets. Pour l’anime et l’illustration, Real-ESRGAN anime_6B est imbattable. Si la vitesse n’est pas une contrainte et que vous cherchez le maximum de qualité, combinez un upscale GAN (Real-ESRGAN) suivi d’un passage SD Upscale pour ajouter des détails générés par diffusion.

L’upscaling dans le workflow Stable Diffusion

Onglet Extras (upscale simple)

Dans AUTOMATIC1111, l’onglet « Extras » offre l’upscaling le plus direct : uploadez une image, sélectionnez un upscaler (Real-ESRGAN, ESRGAN, SwinIR, etc.), choisissez le facteur (2× ou 4×), et cliquez Generate. Pas de prompt, pas de débruitage : c’est un upscale pur par le modèle sélectionné.

L’onglet Extras permet aussi de combiner deux upscalers avec un ratio ajustable. Par exemple, 70% Real-ESRGAN + 30% SwinIR peut produire un résultat qui combine la netteté de Real-ESRGAN avec la douceur de SwinIR.

Hires Fix (intégré au txt2img)

Le Hires Fix est l’upscaling intégré au pipeline txt2img. Quand vous l’activez, le modèle génère d’abord une image à sa résolution native, puis l’upscale et applique une seconde passe d’img2img à faible denoising pour ajouter des détails à haute résolution. C’est le moyen le plus simple de générer directement des images haute résolution sans étape supplémentaire.

Paramètres recommandés pour Hires Fix : upscaler Latent ou R-ESRGAN 4x+, denoising 0.4-0.6, facteur 2×. Un denoising trop élevé (>0.7) modifie significativement l’image et peut changer la composition. Un denoising trop bas (<0.3) ajoute peu de détails.

Script SD Upscale

Le script SD Upscale (accessible via le menu Script dans l’onglet img2img) découpe l’image en tuiles chevauchantes, applique img2img sur chaque tuile, et les fusionne. Le résultat est un upscale qui ajoute des détails générés par le modèle de diffusion, ce qui est particulièrement efficace pour les textures (peau, tissus, végétation).

Paramètres recommandés : denoising 0.2-0.35 (pour ajouter des détails sans modifier la composition), taille de tuile 512 (SD 1.5) ou 1024 (SDXL), chevauchement de 64 pixels. Utilisez le même checkpoint que celui qui a généré l’image pour garantir la cohérence stylistique.

Extension Ultimate SD Upscale

Une extension communautaire améliorée de SD Upscale. Elle gère mieux les coutures entre tuiles, permet de choisir un upscaler GAN comme première passe (avant le passage de diffusion), et offre plus de contrôle sur le processus. C’est la méthode recommandée pour les upscales de production dans AUTOMATIC1111.

Upscaling dans ComfyUI

ComfyUI offre une flexibilité maximale pour l’upscaling grâce à son système de nœuds. Un workflow typique d’upscaling haute qualité dans ComfyUI combine trois étapes : un premier upscale par un modèle GAN (nœud « Upscale Image Using Model » avec Real-ESRGAN), un passage optionnel par un modèle de diffusion (KSampler avec denoising bas) pour ajouter des détails, et un post-traitement éventuel (sharpening, correction de couleur).

L’avantage de ComfyUI est la possibilité de chaîner automatiquement ces étapes, de tester différents upscalers en parallèle, et de sauvegarder le workflow pour une réutilisation rapide. Des nœuds communautaires comme « UpscaleModelLoader » et « ImageUpscaleWithModel » simplifient l’intégration de n’importe quel modèle ESRGAN.

Outils d’upscaling standalone

Au-delà de l’écosystème Stable Diffusion, plusieurs outils dédiés à l’upscaling sont disponibles :

Outil	Type	Prix	Points forts
Upscayl	Desktop (gratuit, open source)	Gratuit	Multiple modèles Real-ESRGAN, offline, multi-plateforme
Topaz Gigapixel AI	Desktop (payant)	~$99 (achat unique) ou abonnement	Meilleure qualité perçue pour l’impression, contrôle fin des artefacts
Adobe Super Resolution	Intégré à Lightroom/Camera Raw	Inclus dans l’abonnement Adobe	Workflow intégré pour les photographes, résultats conservateurs et fiables
Topaz Photo AI	Desktop (payant)	~$199/an	Combine upscale, débruitage et sharpening en un seul outil
Let’s Enhance	Cloud	Freemium (~$12/mois)	Simple, rapide, pas de GPU nécessaire
chaiNNer	Desktop (gratuit, open source)	Gratuit	Interface nodale, chaîne n’importe quel modèle ESRGAN/SwinIR

Pour les images générées par IA, Upscayl (gratuit et open source) est souvent suffisant et produit d’excellents résultats. Pour les photographes professionnels qui impriment en grand format, Topaz Gigapixel AI reste la référence en termes de contrôle des artefacts et de qualité perceptuelle sur les détails fins (textures de peau, cheveux, fourrure).

Upscaling avec Python (Real-ESRGAN)

from realesrgan import RealESRGAN
from PIL import Image
import torch

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")

# Charger le modèle (facteur 4x)
model = RealESRGAN(device, scale=4)
model.load_weights("weights/RealESRGAN_x4.pth")

# Charger et upscaler l'image
image = Image.open("low_res.jpg").convert("RGB")
sr_image = model.predict(image)

sr_image.save("high_res.jpg")

Pour les images anime/illustration, remplacez le fichier de poids par RealESRGAN_x4plus_anime_6B.pth. Le paramètre --face_enhance (en ligne de commande) active GFPGAN pour la correction automatique des visages, ce qui est particulièrement utile pour les portraits upscalés.

Bonnes pratiques pour l’upscaling

Choisir le bon modèle selon le contenu

Le choix du modèle d’upscaling doit correspondre au type de contenu. Real-ESRGAN x4plus est le choix polyvalent pour les photos et les images IA réalistes. Real-ESRGAN anime_6B est optimisé pour l’anime et l’illustration avec des lignes nettes et des aplats de couleur. 4x-UltraSharp est le favori communautaire pour les images Stable Diffusion grâce à sa netteté et son bon rendu des textures. SwinIR est préférable quand vous voulez un résultat plus fidèle et moins « halluciné » (moins d’invention de détails).

Éviter le sur-upscaling

Upscaler une image de 256×256 en 4096×4096 (16×) en un seul passage est une mauvaise idée : le modèle n’a pas assez d’information pour inventer autant de détails de manière cohérente. Préférez des passes successives : 256 → 1024 (4×) → 2048 (2×). Chaque passe dispose de plus d’information pour travailler et le résultat final est meilleur. Au-delà de 4×-8× d’agrandissement total, la qualité dépend entièrement de la capacité du modèle à « halluciner » des détails plausibles.

Combiner GAN et diffusion

Le workflow de plus haute qualité combine un upscale GAN (rapide, produit la résolution cible) suivi d’un passage de diffusion à faible denoising (ajoute des détails texturaux fins). Par exemple : Real-ESRGAN 4× puis Ultimate SD Upscale avec denoising 0.25-0.35. Le GAN gère l’agrandissement et la structure, la diffusion ajoute la richesse texturale.

Corriger les visages avec GFPGAN

L’upscaling peut amplifier les défauts des visages (yeux flous, peau plastique). GFPGAN est un modèle spécifiquement entraîné pour la restauration de visages. Il peut être combiné avec Real-ESRGAN (via le flag --face_enhance) pour corriger automatiquement les visages pendant l’upscale. Dans AUTOMATIC1111, l’option « Restore faces » dans l’onglet Extras active cette fonctionnalité.

Gestion du tiling pour les grandes images

Les modèles d’upscaling consomment beaucoup de VRAM. Pour upscaler une image de 2048×2048 en 4×, il faudrait théoriquement traiter un tenseur de 8192×8192, ce qui dépasse la capacité de la plupart des GPU. La solution : le tiling. L’image est découpée en tuiles, chaque tuile est upscalée individuellement, et les résultats sont recombinés. Real-ESRGAN supporte nativement le tiling avec le paramètre --tile (ex. : --tile 256). Cela réduit drastiquement la VRAM nécessaire au prix d’un temps de traitement plus long.

Upscaling vidéo

Les mêmes modèles (Real-ESRGAN notamment) peuvent être appliqués image par image pour upscaler des vidéos. Real-ESRGAN propose nativement un mode vidéo qui traite chaque frame individuellement. Le projet Upscale-Enhance (open source) automatise ce processus avec gestion des formats vidéo (MP4, MKV, AVI) et du traitement par batch.

La limite principale de l’upscaling vidéo frame-par-frame est le scintillement temporel (flickering) : chaque frame est traitée indépendamment, ce qui peut introduire des inconsistances subtiles entre frames consécutives. Des techniques de lissage temporel existent mais sont encore expérimentales dans l’écosystème open source.

Limites de l’upscaling IA

Hallucination de détails

Les modèles GAN « inventent » des détails qui n’existaient pas dans l’image originale. Sur une photo de peau, le modèle peut ajouter des pores qui n’étaient pas visibles. Sur du texte, il peut inventer des lettres. Cette hallucination est le prix de la netteté : un upscale parfaitement fidèle ne pourrait que reproduire le flou de l’original. Pour les usages critiques (imagerie médicale, forensique), préférez des modèles plus conservateurs comme SwinIR ou Adobe Super Resolution.

Artefacts spécifiques

Chaque modèle a ses défauts caractéristiques. Real-ESRGAN peut sur-lisser les textures fines (donnant un aspect « plastique » à la peau). SwinIR peut produire des halos (ringing) autour des contours nets. Les modèles de diffusion peuvent introduire des détails incohérents avec le contexte. La combinaison de plusieurs modèles et la comparaison des résultats reste la meilleure approche.

Texte et motifs fins

L’upscaling de texte dans les images (panneaux, enseignes, captures d’écran) est un cas difficile pour tous les modèles IA. Le modèle peut inventer des lettres erronées au lieu de simplement améliorer la netteté des lettres existantes. Pour le texte, l’interpolation Lanczos classique donne parfois de meilleurs résultats que l’IA, ou utilisez des modèles spécifiquement entraînés sur du texte.

Questions fréquentes sur l’upscaling IA

Quel est le meilleur upscaler pour les images Stable Diffusion ?

Pour un usage général, Real-ESRGAN x4plus ou 4x-UltraSharp offrent le meilleur rapport qualité/vitesse. Pour les illustrations anime, Real-ESRGAN anime_6B est le standard. Pour la qualité maximale, combinez Real-ESRGAN (pour l’agrandissement de base) avec Ultimate SD Upscale à faible denoising (pour ajouter des détails texturaux). Le choix dépend aussi du style de votre checkpoint : testez 2-3 upscalers et comparez les résultats sur votre type d’image spécifique.

Quelle est la différence entre l’upscaling GAN et l’upscaling par diffusion ?

L’upscaling GAN (Real-ESRGAN, ESRGAN) est rapide (quelques secondes) et produit des résultats nets et détaillés en un seul passage. Il « hallucine » des détails plausibles mais ne prend pas en compte un prompt textuel. L’upscaling par diffusion (SD Upscale, LDSR) est plus lent (minutes) mais peut être guidé par un prompt et le checkpoint chargé, ce qui permet d’ajouter des détails stylistiquement cohérents avec l’image originale. En pratique, les deux sont complémentaires et se combinent souvent dans un workflow en deux passes.

Peut-on upscaler une image indéfiniment ?

Non. Chaque passe d’upscaling ajoute des détails « hallucinés » et des artefacts subtils. Au bout de 2-3 passes successives, la qualité commence à se dégrader : textures sur-lissées, détails inventés incohérents, perte de fidélité à l’image originale. En pratique, un agrandissement total de 4× à 8× (soit 1-2 passes de 4×) est le maximum raisonnable. Au-delà, le résultat dépend entièrement de la capacité du modèle à inventer des détails plausibles.

L’upscaling nécessite-t-il un GPU puissant ?

Les modèles GAN (Real-ESRGAN) fonctionnent sur des GPU modestes (4-6 Go de VRAM) ou même sur CPU (plus lent). Le tiling permet de traiter de grandes images avec peu de VRAM. L’upscaling par diffusion (SD Upscale, LDSR) est plus exigeant et nécessite un GPU capable de faire tourner Stable Diffusion (8-12 Go). Upscayl (gratuit, desktop) fonctionne aussi sur CPU et peut utiliser Vulkan pour les GPU non-NVIDIA. Sur Mac, Core ML permet d’exploiter le Neural Engine d’Apple Silicon sans GPU dédié.

Comment upscaler sans perdre la qualité des visages ?

Les visages sont le point faible de l’upscaling standard : la peau peut devenir « plastique » et les yeux perdre en détail. Trois solutions complémentaires : activez GFPGAN (face enhancement) pendant l’upscale, ce qui corrige automatiquement les visages. Utilisez ADetailer dans AUTOMATIC1111 pour détecter et régénérer les visages en inpainting haute résolution après l’upscale. Et pour les portraits en gros plan, un passage dédié avec un modèle de restauration de visages (GFPGAN ou CodeFormer) avant l’upscale général donne les meilleurs résultats.