Automatic1111 et Forge : guide complet du WebUI Stable Diffusion
Automatic1111 (A1111) est l’interface web la plus populaire pour Stable Diffusion, avec une interface à onglets classique et le plus grand écosystème d’extensions. Forge, son fork optimisé, offre 30 à 75 % de performances en plus sur les GPU à VRAM limitée. Ce guide couvre les deux, avec une recommandation claire : installez Forge pour les nouvelles installations.
- Type
- Interface web (Gradio) pour Stable Diffusion
- Prix
- Gratuit, open-source
- A1111
- Interface originale, plus grand écosystème d’extensions (centaines de plugins)
- Forge
- Fork optimisé d’A1111, 30-75 % plus rapide, meilleure gestion VRAM
- Recommandation
- Forge pour les nouvelles installations, A1111 si vous avez déjà un setup fonctionnel
- Alternative
- ComfyUI (interface à nœuds, plus flexible)
A1111 vs Forge : lequel choisir ?
Automatic1111 est sorti en août 2022, un mois après la publication initiale de Stable Diffusion. Il est rapidement devenu l’interface de référence grâce à son interface intuitive et son écosystème d’extensions massif. Forge, créé par le développeur de ControlNet et Fooocus (lllyasviel), est un fork d’A1111 qui restructure le backend pour une meilleure gestion de la mémoire GPU.
| Critère | Automatic1111 | Forge |
|---|---|---|
| Performance (6 Go VRAM) | Baseline | Jusqu’à 75 % plus rapide |
| Performance (8 Go VRAM) | Baseline | ~45 % plus rapide |
| Performance (24 Go VRAM) | Baseline | ~6 % plus rapide |
| Gestion VRAM | Standard | Optimisée (SDXL sur 8 Go possible) |
| Extensions | Le plus grand écosystème | Compatible avec la majorité des extensions A1111 |
| Features intégrées | Base | ControlNet, IP-Adapter, SVD préinstallés |
| Stabilité | Stable, longtemps éprouvé | Build juillet 2024 recommandé pour la stabilité |
| Interface | Identique | Identique (même UI Gradio) |
| Modèles partagés | – | Symlink vers les modèles A1111 possible |
Verdict : pour toute nouvelle installation, choisissez Forge. L’interface est identique à A1111 (vous ne verrez pas la différence visuellement), mais les performances sont significativement meilleures, surtout sur les GPU à VRAM limitée (6 à 12 Go). Si vous avez déjà un setup A1111 fonctionnel avec des extensions spécifiques, il n’est pas urgent de migrer, mais Forge vaut la peine si vous envisagez un changement.
L’interface : les onglets principaux
L’interface A1111/Forge est organisée en onglets. Voici les plus importants :
txt2img : texte vers image
L’onglet principal. Vous tapez un prompt (description textuelle) et un prompt négatif (ce que vous voulez exclure), réglez les paramètres, et cliquez « Generate ». L’interface affiche les paramètres de génération à droite : sampler, steps, CFG scale, dimensions, seed, et batch size.
Éléments clés de l’onglet txt2img :
Prompt et Negative Prompt. Deux champs texte en haut. Le prompt décrit ce que vous voulez voir, le negative prompt ce que vous voulez éviter. Contrairement à Midjourney, Stable Diffusion réagit mieux aux mots-clés pondérés qu’aux phrases naturelles. Utilisez la syntaxe (mot:1.3) pour augmenter le poids d’un terme, (mot:0.7) pour le réduire.
Sampling method. L’algorithme de débruitage. DPM++ 2M Karras est le choix recommandé pour un bon équilibre qualité/vitesse. Euler a et DPM++ SDE Karras sont aussi populaires.
Sampling steps. Le nombre d’itérations de débruitage. 20 à 30 steps suffisent pour la plupart des usages. Plus de steps = plus de détails mais plus lent. Au-delà de 50, les gains sont marginaux.
CFG Scale. « Classifier-Free Guidance » contrôle la fidélité au prompt. Valeurs typiques : 7 à 12 pour SD 1.5, 4 à 7 pour SDXL. Trop haut (>15) produit des images sur-saturées et artificielles. Trop bas (<3) ignore le prompt.
Width / Height. La résolution de l’image. Respectez la résolution native du modèle : 512×512 pour SD 1.5, 1024×1024 pour SDXL. Les résolutions non natives peuvent produire des artefacts (visages dupliqués, anatomie déformée).
Seed. Le nombre aléatoire qui initialise la génération. -1 = aléatoire. Fixer un seed avec le même prompt produit un résultat quasi identique, utile pour l’itération.
Batch count / Batch size. Batch count = nombre de lots à générer séquentiellement. Batch size = nombre d’images par lot (en parallèle, consomme plus de VRAM). Pour économiser la VRAM, gardez batch size à 1 et montez le batch count.
img2img : image vers image
Permet de transformer une image existante en suivant un prompt. Vous uploadez une image, tapez un prompt, et réglez le « Denoising strength » (0 = image originale intacte, 1 = image entièrement régénérée). Valeurs typiques : 0.3 à 0.7.
Usages principaux : transfert de style (appliquer un style artistique à une photo), amélioration de sketches (transformer un croquis en illustration détaillée), variation sur un thème (modifier une image existante en gardant sa structure).
Inpainting
Sous-onglet de img2img. Permet de modifier une zone spécifique d’une image. Uploadez votre image, peignez un masque sur la zone à modifier, tapez un prompt décrivant le remplacement souhaité, et générez. Seule la zone masquée est régénérée, le reste de l’image est préservé.
C’est l’outil idéal pour corriger des mains déformées, remplacer un arrière-plan, ajouter ou supprimer des éléments, et corriger des artefacts localisés.
Extras : post-traitement
Onglet dédié à l’upscaling et au post-traitement. Chargez une image et appliquez des modèles d’upscaling (ESRGAN, SwinIR, etc.) pour augmenter la résolution. L’option « Restore faces » (CodeFormer, GFPGAN) corrige automatiquement les visages déformés.
Les extensions essentielles
L’écosystème d’extensions est l’atout principal d’A1111/Forge. Voici les incontournables :
ControlNet. Permet de guider la génération par des références visuelles : pose humaine (OpenPose), contours (Canny), profondeur (Depth), segmentation. Préinstallé dans Forge, à installer manuellement dans A1111. C’est l’extension la plus importante pour le contrôle de composition.
Ultimate SD Upscale. Upscaling en tuiles pour traiter des images très haute résolution sans exploser la VRAM. Découpe l’image, upscale chaque tuile, puis recolle le tout.
Regional Prompter. Assigne différents prompts à différentes régions de l’image. Par exemple : un prompt pour le personnage au premier plan, un autre pour l’arrière-plan.
ADetailer (After Detailer). Détecte automatiquement les visages et mains dans l’image, puis les régénère à plus haute résolution pour corriger les défauts. Extrêmement utile pour les portraits.
Reactor (remplacement de Roop). Face swap : remplace un visage dans l’image générée par un visage de référence. Utilisé pour la cohérence de personnage.
Civitai Helper. Facilite le téléchargement et la gestion des modèles depuis Civitai directement dans l’interface.
Installation des extensions : dans A1111/Forge, allez dans l’onglet « Extensions », cliquez sur « Available », cherchez l’extension souhaitée, et cliquez « Install ». Redémarrez le WebUI pour activer.
Installation de Forge
Deux méthodes sont disponibles :
Méthode one-click (Windows)
Téléchargez le package portable depuis la page Releases du dépôt GitHub de Forge. Décompressez l’archive. Lancez run_nvidia_gpu.bat. Le WebUI s’ouvre automatiquement dans votre navigateur. Placez vos modèles dans models/Stable-diffusion/. Durée : environ 10 minutes.
Méthode Git (toutes plateformes)
Prérequis : Python 3.10.6 et Git installés.
git clone https://github.com/lllyasviel/stable-diffusion-webui-forge.git
cd stable-diffusion-webui-forge
python launch.py
La première exécution télécharge les dépendances automatiquement (5 à 15 minutes).
Partager les modèles avec A1111
Si vous avez déjà A1111 installé, vous pouvez partager les modèles entre les deux interfaces via un lien symbolique :
Windows (cmd en administrateur) :
mklink /d C:cheminforgemodels C:chemina1111models
Linux/Mac :
ln -s /chemin/a1111/models /chemin/forge/models
Cela évite de dupliquer des dizaines de Go de fichiers de modèles.
Hires Fix : l’upscaling intégré
Le Hires Fix est une fonctionnalité intégrée qui génère d’abord l’image à la résolution native du modèle, puis l’upscale en une seconde passe avec un denoising supplémentaire. C’est le moyen le plus simple d’obtenir des images haute résolution sans artefacts.
Paramètres recommandés : Upscaler : R-ESRGAN 4x+ ou SwinIR. Hires steps : 10 à 20. Denoising strength : 0.3 à 0.5 (plus haut = plus de modifications). Upscale by : 1.5x à 2x.
Le Hires Fix consomme significativement plus de VRAM et de temps. Activez-le uniquement pour les images finales, pas pendant l’exploration.
Mises à jour et maintenance
Forge (package portable). Lancez update.bat dans le dossier Forge. La mise à jour prend 2 à 5 minutes et préserve vos modèles et paramètres.
Forge / A1111 (installation Git). Ouvrez un terminal dans le dossier du WebUI et exécutez git pull. Relancez ensuite le WebUI. Les dépendances sont mises à jour automatiquement si nécessaire.
Extensions. Dans l’onglet Extensions, cliquez sur « Check for updates » pour voir quelles extensions ont des mises à jour disponibles, puis « Apply and restart UI ».
Conseil : ne mettez pas à jour immédiatement après chaque release. Attendez quelques jours pour que la communauté identifie d’éventuels bugs. Les versions récentes de Forge ont connu des instabilités, et le build de juillet 2024 (commit a9e0c38) reste le plus recommandé pour la stabilité en production.
A1111/Forge vs ComfyUI
Le choix entre A1111/Forge et ComfyUI dépend de votre profil :
Choisissez A1111/Forge si : vous débutez dans Stable Diffusion et voulez une interface intuitive. Vous préférez les formulaires classiques (onglets, sliders, boutons) aux interfaces visuelles à nœuds. Vous avez besoin d’extensions spécifiques qui n’existent que dans l’écosystème A1111 (Regional Prompter, ADetailer, etc.). Vous voulez une installation rapide sans configuration complexe.
Choisissez ComfyUI si : vous avez besoin de workflows reproductibles et partageables. Vous utilisez des modèles récents comme Flux (meilleur support natif). Vous construisez des pipelines complexes (multi-pass, multi-LoRA, multi-ControlNet). Vous voulez les meilleures performances et la meilleure gestion mémoire.
Beaucoup d’utilisateurs avancés ont les deux installés : A1111/Forge pour les tâches rapides et l’inpainting (interface plus directe), et ComfyUI pour les workflows complexes et les modèles récents.
Prompting dans A1111/Forge
Le prompting pour Stable Diffusion diffère de celui de Midjourney. Quelques spécificités :
Mots-clés plutôt que phrases. Stable Diffusion réagit mieux à des listes de descripteurs qu’à des phrases narratives. portrait, young woman, red hair, freckles, natural lighting, bokeh, detailed fonctionne mieux que « a portrait of a young woman with red hair ».
Pondération avec parenthèses. (mot:1.3) augmente l’importance d’un terme de 30 %. (mot:0.7) la réduit de 30 %. Les crochets [mot] réduisent aussi le poids (syntaxe alternative).
Le prompt négatif est crucial. Contrairement à Midjourney qui n’a qu’un --no basique, A1111 dispose d’un champ complet. Un bon prompt négatif standard : blurry, lowres, bad anatomy, deformed, extra limbs, missing fingers, watermark, text, ugly, duplicate, disfigured.
Embeddings négatifs. Des fichiers d’embeddings comme « EasyNegative » ou « badhandv4 » encapsulent des prompts négatifs optimisés en un seul mot. Placez-les dans models/embeddings/ et utilisez-les dans votre prompt négatif pour de meilleurs résultats avec moins d’effort.
Guide des samplers
Le choix du sampler influence la qualité, le style et la vitesse de génération. Voici les plus utilisés et quand les choisir :
| Sampler | Steps recommandés | Vitesse | Usage |
|---|---|---|---|
| DPM++ 2M Karras | 20-30 | Rapide | Usage général, meilleur rapport qualité/vitesse |
| Euler a | 20-40 | Rapide | Résultats créatifs, bonne diversité |
| DPM++ SDE Karras | 20-30 | Moyen | Meilleurs détails, portraits, textures |
| DDIM | 20-50 | Rapide | Inpainting, résultats prévisibles |
| UniPC | 15-25 | Très rapide | Prototypage rapide, peu de steps nécessaires |
Si vous ne savez pas lequel choisir, commencez par DPM++ 2M Karras à 25 steps. C’est le choix par défaut de la communauté pour une bonne raison : il produit des résultats cohérents et détaillés dans la grande majorité des cas.
L’outil X/Y/Z Plot : tester méthodiquement
L’outil X/Y/Z Plot (dans le menu « Script » sous le bouton Generate) est l’une des fonctionnalités les plus sous-utilisées d’A1111/Forge. Il permet de générer automatiquement une grille d’images en faisant varier un ou plusieurs paramètres.
Exemples d’utilisation :
Comparer des samplers. Axe X = Sampler (DPM++ 2M Karras, Euler a, DPM++ SDE Karras). Axe Y = Steps (15, 25, 40). Résultat : une grille de 9 images montrant l’impact de chaque combinaison.
Trouver le bon CFG. Axe X = CFG Scale (3, 5, 7, 9, 12). Même prompt, même seed. Vous voyez instantanément quel CFG convient le mieux à votre modèle et votre prompt.
Comparer des modèles. Axe X = Checkpoint. Même prompt sur plusieurs modèles pour trouver celui qui correspond le mieux à votre style visé.
C’est la méthode la plus efficace pour apprendre comment chaque paramètre affecte le résultat. Chaque nouveau modèle que vous testez mérite un X/Y/Z Plot de calibration.
Réglages avancés utiles
Dans l’onglet Settings d’A1111/Forge, quelques options méritent votre attention :
CLIP Skip. Contrôle à quelle couche du modèle CLIP le texte est interprété. CLIP Skip 1 (défaut) utilise la dernière couche (plus précis). CLIP Skip 2 est populaire avec les modèles anime et certains modèles communautaires (résultat plus créatif, moins littéral). Vérifiez la recommandation de chaque modèle sur sa page Civitai.
Face Restoration. Active CodeFormer ou GFPGAN automatiquement sur chaque génération pour corriger les visages. Utile en SD 1.5 où les visages sont souvent déformés. Moins nécessaire avec SDXL qui gère mieux les visages nativement.
Tiling. Génère des images répétables en mosaïque (textures, papiers peints). Cochez « Tiling » dans les paramètres de génération.
Save metadata. Par défaut, A1111/Forge intègre les métadonnées (prompt, paramètres, seed, modèle) dans chaque PNG généré. Cela permet de reproduire exactement un résultat. Ne désactivez cette option que si la confidentialité est critique.
Questions fréquentes
Forge remplace-t-il Automatic1111 ?
Pas officiellement. Forge est un fork indépendant créé par un développeur différent (lllyasviel, le créateur de ControlNet). A1111 continue d’être maintenu séparément. En pratique, Forge est recommandé pour les nouvelles installations car il offre de meilleures performances avec la même interface. Les deux projets coexistent et partagent la compatibilité des modèles et de la plupart des extensions.
Mes modèles A1111 fonctionnent-ils dans Forge ?
Oui, sans aucune modification. Tous les fichiers .safetensors et .ckpt fonctionnent dans Forge. Vous pouvez copier vos modèles ou créer un lien symbolique vers votre dossier A1111 existant pour économiser l’espace disque. Les LoRA, VAE et embeddings sont également compatibles.
Quelle version de Python utiliser ?
Python 3.10.6 est la version recommandée. Python 3.11+ cause des erreurs de compatibilité avec certaines dépendances (xformers notamment). Si vous avez plusieurs versions de Python installées, utilisez pyenv ou conda pour gérer les environnements virtuels. La cause numéro un des échecs d’installation est un mismatch de version Python.
Comment résoudre « CUDA out of memory » ?
Plusieurs solutions par ordre de priorité : baissez la résolution de l’image (revenez à la résolution native du modèle). Mettez le batch size à 1. Fermez les autres applications qui utilisent le GPU. Ajoutez --medvram ou --lowvram aux arguments de lancement dans webui-user.bat. Activez --xformers pour réduire la consommation mémoire. Si le problème persiste, envisagez un modèle plus léger (SD 1.5 au lieu de SDXL).
A1111/Forge supporte-t-il les modèles Flux ?
Partiellement. Forge a ajouté un support basique pour Flux via des sélecteurs de modèle dédiés, mais le support est moins mature que dans ComfyUI. Pour un usage sérieux de Flux en local, ComfyUI reste le choix recommandé. Pour SD 1.5 et SDXL, A1111/Forge reste parfaitement adapté et souvent plus simple à utiliser.