Stable Diffusion Modèles : guide des checkpoints

Un modèle (ou checkpoint) Stable Diffusion est un fichier contenant les « connaissances » visuelles du réseau de neurones. Différents modèles produisent différents styles. Ce guide couvre les architectures de base (SD 1.5, SDXL, SD 3.5, Flux), les meilleurs checkpoints communautaires par usage, et comment les installer.

Format: .safetensors (recommandé, sécurisé) ou .ckpt (legacy, risque sécurité)
Sources: Civitai.com (communauté) · Hugging Face (officiel + recherche)
Architectures: SD 1.5 (512px, 4 Go) · SDXL (1024px, 8 Go) · SD 3.5 (1024px, 8 Go) · Flux (1024px, 12 Go+)
Installation: Placer le fichier dans models/Stable-diffusion/ (A1111/Forge) ou models/checkpoints/ (ComfyUI)
Taille typique: 2 Go (SD 1.5) à 12 Go (Flux)

Les quatre architectures de base

Tous les checkpoints communautaires dérivent d’une architecture de base. Comprendre ces architectures est essentiel pour choisir le bon modèle et les bons paramètres.

SD 1.5 : le vétéran incontournable

Sorti en octobre 2022 par Runway ML, SD 1.5 reste le modèle le plus utilisé sur Civitai en nombre de checkpoints communautaires. Sa résolution native est 512×512 pixels. Il nécessite seulement 4 Go de VRAM, ce qui le rend accessible aux GPU d’entrée de gamme.

Forces : écosystème massif (des milliers de checkpoints, LoRA, embeddings), léger en VRAM, rapide en génération, communauté très active. Faiblesses : résolution native basse (512×512), anatomie des mains et visages moins fiable que SDXL, prompt adherence limitée sur les compositions complexes.

SD 1.5 reste pertinent pour les utilisateurs avec un GPU à VRAM limitée (4 à 6 Go) et pour les projets qui exploitent des LoRA et checkpoints communautaires spécialisés dont la majorité sont encore basés sur cette architecture.

SDXL : le standard actuel

SDXL (Stable Diffusion XL), sorti par Stability AI, génère en 1024×1024 natif avec une anatomie nettement meilleure, un meilleur suivi de prompt, et des détails plus fins. Il nécessite 8 Go de VRAM minimum (12 Go recommandé).

L’architecture SDXL utilise un pipeline en deux étapes : un modèle de base génère les latents, puis un modèle refiner optionnel améliore les détails via une passe img2img. En pratique, beaucoup de checkpoints communautaires SDXL n’utilisent pas le refiner car la qualité de base est déjà suffisante.

SDXL est le choix recommandé pour la majorité des utilisateurs en mars 2026. Son écosystème de checkpoints communautaires est mature, la qualité est nettement supérieure à SD 1.5, et les GPU 8 Go sont largement répandus.

SD 3.5 : la nouvelle génération

SD 3.5, lancé par Stability AI, utilise une architecture MMDiT (Multi-Modal Diffusion Transformer) différente des versions précédentes. Il améliore le rendu de texte dans les images, la gestion multi-sujet, et le suivi de prompt. Résolution native 1024×1024, VRAM minimum 8 Go.

SD 3.5 existe en plusieurs variantes : Large (le plus capable), Medium (compromis), et Turbo (rapide). L’écosystème communautaire est encore en croissance : il y a moins de checkpoints fine-tunés que pour SDXL, mais la tendance s’accélère.

Flux : le challenger open-source

Flux, développé par Black Forest Labs (fondé par d’anciens chercheurs de Stability AI), n’est pas techniquement du « Stable Diffusion » mais utilise des principes de diffusion similaires et fonctionne dans les mêmes interfaces (ComfyUI principalement).

Flux existe en plusieurs variantes : Schnell (rapide), Dev (développeur, gratuit), et Pro (commercial). Flux 2, sorti fin 2025, a repoussé les limites en photoréalisme et en compréhension de prompts en langage naturel. Il nécessite 12 Go de VRAM minimum.

Flux est le meilleur choix pour le photoréalisme pur et le suivi de prompt précis, mais son écosystème de LoRA est moins mature que celui de SDXL.

Architecture	Résolution native	VRAM min	Taille fichier	Ecosystème communautaire	Meilleur pour
SD 1.5	512×512	4 Go	~2 Go	⭐⭐⭐⭐⭐ (immense)	GPU faible, LoRA spécialisés
SDXL	1024×1024	8 Go	~6,5 Go	⭐⭐⭐⭐⭐ (mature)	Usage général, meilleur rapport qualité/écosystème
SD 3.5	1024×1024	8 Go	~4-8 Go	⭐⭐⭐ (en croissance)	Texte dans les images, multi-sujet
Flux	1024×1024	12 Go	~12 Go	⭐⭐⭐ (en croissance rapide)	Photoréalisme, suivi de prompt

Les meilleurs checkpoints communautaires

Les checkpoints communautaires sont des modèles fine-tunés par des créateurs sur des datasets spécialisés. Ils surpassent souvent les modèles de base pour des usages spécifiques. Voici les plus recommandés par catégorie en mars 2026.

Photoréalisme

Juggernaut XL (SDXL) : le standard de facto pour la photographie réaliste. Textures de peau, éclairage naturel, environnements convaincants, anatomie fiable. Plus de 10 versions itérées par la communauté. Fonctionne particulièrement bien avec des prompts de style photographique (« shot on Canon EOS R5, 85mm f/1.4 »). C’est le checkpoint SDXL le plus téléchargé sur Civitai.

RealVisXL (SDXL) : excelle dans le rendu de personnes multiples dans une scène, avec des textures de peau et de cheveux très détaillées. Légèrement différent de Juggernaut dans le « rendu couleur » (plus neutre vs plus chaud).

Realistic Vision (SD 1.5) : le roi du photoréalisme en SD 1.5. Remarquablement bon malgré l’architecture plus ancienne, surtout pour les portraits. Tourne sur des GPU à 4 Go de VRAM.

CyberRealistic (SD 1.5) : rendu éditorial/mode avec un look cinématique et des contrastes marqués. Excellent pour les portraits stylisés.

Anime et illustration

Pony Diffusion v6 XL (SDXL) : le modèle anime/stylisé le plus populaire sur SDXL. Gère les compositions complexes, les personnages multi-poses, et les styles variés (anime, cartoon, illustration).

AAM XL AnimeMix (SDXL) : spécialisé anime avec des couleurs vibrantes, des lignes nettes, et une bonne cohérence pour les feuilles de personnage (character sheets).

Anything V3/V5 (SD 1.5) : les classiques du genre, toujours largement utilisés pour l’anime en SD 1.5. Immense bibliothèque de LoRA compatibles.

Design et créatif

DreamShaper XL (SDXL) : polyvalent, produit de bons résultats en illustration, fantaisie, et design conceptuel. Bon point de départ pour les projets créatifs variés.

Playground v2.5 (SDXL) : orienté art et créativité, résultats très esthétiques et souvent surprenants. Moins prévisible que les modèles réalistes, mais plus original.

Stable Diffusion vs Midjourney : le modèle compte

La qualité d’image de Stable Diffusion dépend entièrement du checkpoint choisi. Le modèle de base SDXL produit des résultats corrects mais inférieurs à Midjourney. En revanche, un checkpoint communautaire bien choisi (Juggernaut XL pour la photo, Pony v6 pour l’anime) rivalise avec Midjourney dans son domaine de spécialisation, avec l’avantage du contrôle total et de la gratuité.

La différence fondamentale : Midjourney est un modèle unique optimisé pour l’esthétique universelle. Stable Diffusion est un écosystème de modèles spécialisés. Vous ne trouverez pas un seul checkpoint SD qui bat Midjourney sur tous les fronts, mais vous trouverez des checkpoints qui le dépassent dans leur niche.

Fusionner des modèles (Model Merging)

A1111/Forge intègre un outil de fusion de modèles (onglet « Checkpoint Merger ») qui permet de combiner deux ou trois checkpoints en un nouveau modèle. C’est une technique avancée pour créer des checkpoints personnalisés sans entraînement.

Le concept est simple : vous choisissez deux modèles (par exemple un modèle réaliste et un modèle stylisé), définissez un ratio de mélange (par exemple 70/30), et le merger interpole les poids des deux réseaux. Le résultat est un nouveau checkpoint qui combine les caractéristiques des deux sources.

Trois méthodes de fusion sont disponibles : Weighted Sum (interpolation linéaire, la plus simple), Add Difference (ajoute la « différence » entre deux modèles à un troisième), et plusieurs variantes avancées. Le Weighted Sum à un ratio 0.5 (50/50) est le point de départ recommandé pour les débutants.

Le merging est une approche d’essai-erreur : il n’y a pas de garantie que la fusion de deux bons modèles produira un bon résultat. Testez systématiquement avec le même prompt et le même seed pour comparer le modèle fusionné avec ses sources.

Installer un modèle

1. Téléchargez le fichier. Sur Civitai.com, trouvez le modèle souhaité, sélectionnez la version et cliquez « Download ». Choisissez toujours le format .safetensors (sécurisé) plutôt que .ckpt (peut contenir du code arbitraire).

2. Placez le fichier. Copiez-le dans le bon dossier selon votre interface : models/Stable-diffusion/ pour A1111/Forge, models/checkpoints/ pour ComfyUI.

3. Rafraîchissez. Dans A1111/Forge, cliquez le bouton de rafraîchissement à côté du menu déroulant des modèles en haut à gauche. Dans ComfyUI, actualisez le nœud Load Checkpoint. Le nouveau modèle apparaît dans la liste.

4. Sélectionnez et testez. Choisissez le modèle, tapez un prompt de test, et générez. Chaque modèle a ses préférences en matière de paramètres (CFG, sampler, CLIP Skip). Consultez la page du modèle sur Civitai pour les réglages recommandés.

Sécurité : .safetensors uniquement Les fichiers .ckpt (checkpoint) peuvent contenir du code Python arbitraire exécuté au chargement. C’est un risque de sécurité réel. Le format .safetensors est conçu pour être sûr par construction : il ne contient que des tenseurs de données, pas de code exécutable. Téléchargez exclusivement des .safetensors depuis des sources fiables (Civitai, Hugging Face).

Types de modèles : checkpoints, LoRA, embeddings

Le terme « modèle » recouvre plusieurs types de fichiers distincts dans l’écosystème Stable Diffusion :

Checkpoints. Les modèles complets et autonomes (2 à 12 Go). C’est le « cerveau » principal qui contient toutes les connaissances visuelles. Un checkpoint suffit pour générer des images.

LoRA (Low-Rank Adaptation). Des fichiers légers (50 à 300 Mo) qui modifient le comportement d’un checkpoint de base. Un LoRA ajoute un style, un personnage, un concept, ou un objet spécifique sans remplacer le modèle entier. Ils se « stackent » sur un checkpoint existant.

Embeddings (Textual Inversions). De très petits fichiers (quelques Ko) qui enseignent un nouveau concept à un modèle via un mot-clé personnalisé. Utilisés souvent comme « embeddings négatifs » (EasyNegative, badhandv4) pour améliorer la qualité en excluant des défauts communs.

VAE (Variational Autoencoder). Le composant qui convertit les images latentes en pixels visibles. Certains checkpoints incluent leur propre VAE, d’autres nécessitent un VAE séparé pour un rendu optimal des couleurs. Le VAE de SDXL est généralement intégré.

Comment choisir le bon modèle

Face aux milliers de checkpoints disponibles, voici une méthode de sélection pragmatique :

1. Définissez votre usage. Photoréalisme ? Anime ? Illustration ? Design produit ? Architecture ? Chaque catégorie a ses modèles spécialisés.

2. Vérifiez votre VRAM. 4 à 6 Go → SD 1.5. 8 à 12 Go → SDXL. 12 Go+ → SDXL, SD 3.5 ou Flux.

3. Commencez par les valeurs sûres. Ne testez pas 20 modèles d’un coup. Choisissez un checkpoint reconnu dans votre catégorie (Juggernaut XL pour la photo, Pony v6 pour l’anime, DreamShaper XL pour le créatif) et maîtrisez-le avant d’explorer.

4. Consultez les exemples. Sur Civitai, chaque modèle a une galerie d’images communautaires avec les prompts utilisés. C’est la meilleure façon de juger si un modèle correspond à vos attentes avant de le télécharger.

5. Testez méthodiquement. Utilisez l’outil X/Y/Z Plot d’A1111/Forge pour comparer plusieurs modèles avec le même prompt et le même seed. C’est le moyen le plus objectif de comparer la qualité.

Conseil : 3 à 5 modèles suffisent La plupart des créateurs productifs travaillent avec 3 à 5 checkpoints principaux et une collection de LoRA pour la spécialisation. Accumuler des dizaines de modèles crée de la confusion et consomme de l’espace disque inutilement. Maîtrisez un modèle avant d’en ajouter un nouveau.

Ou trouver des modeles : les sources fiables

Civitai.com. La plateforme communautaire de reference pour les modeles Stable Diffusion. Des milliers de checkpoints, LoRA et embeddings avec galeries d’exemples, prompts associes, et commentaires de la communaute. Filtrez par architecture (SD 1.5, SDXL, Flux), par type (checkpoint, LoRA), et par popularite. Compte gratuit requis pour certains contenus. C’est le premier endroit ou chercher un modele specialise.

Hugging Face. La plateforme de reference pour les modeles de machine learning. Heberge les modeles officiels de Stability AI (SDXL, SD 3.5) et de Black Forest Labs (Flux). L’interface est moins orientee « galerie visuelle » que Civitai mais les modeles sont generalement bien documentes avec des fiches techniques completes. C’est la source recommandee pour les modeles de base officiels.

OpenArt. Une alternative a Civitai avec une interface propre et des modeles curetes. Moins vaste que Civitai mais plus facile a naviguer pour les debutants.

Repos GitHub. Certains createurs partagent leurs modeles directement sur GitHub, souvent accompagnes du code d’entrainement. Utile pour les chercheurs et les developpeurs qui veulent comprendre le processus de fine-tuning.

Evaluer un modele avant de le telecharger Sur Civitai, regardez en priorite : le nombre de telechargements (popularite), les images d’exemple generees par la communaute (pas seulement celles du createur), les commentaires recents (signalant des bugs ou des limitations), et la date de la derniere mise a jour. Un modele avec beaucoup de telechargements et des images communautaires variees est generalement un choix sur.

Compatibilite des modeles entre interfaces

Les fichiers .safetensors sont universels : un meme checkpoint fonctionne dans A1111, Forge, ComfyUI, et toute autre interface compatible Stable Diffusion. Les LoRA et embeddings sont aussi interchangeables entre interfaces.

La seule exception concerne les modeles Flux, qui sont mieux supportes dans ComfyUI que dans A1111/Forge. Si vous utilisez principalement des modeles Flux, ComfyUI est le choix recommande.

Vous pouvez partager un meme dossier de modeles entre plusieurs interfaces via des liens symboliques (symlinks), evitant ainsi de dupliquer des fichiers de plusieurs Go. Sous Windows, la commande mklink /d en invite de commande administrateur cree un symlink de dossier. Sous Linux/Mac, utilisez ln -s.

Questions fréquentes

Quel modèle choisir pour commencer ?

Si vous avez 8 Go de VRAM ou plus : SDXL base (gratuit sur Hugging Face) ou Juggernaut XL (gratuit sur Civitai) pour le photoréalisme. Si vous avez 4 à 6 Go de VRAM : Realistic Vision ou DreamShaper (SD 1.5, gratuits sur Civitai). Ces modèles sont largement documentés, avec de nombreux exemples de prompts et de paramètres recommandés par la communauté.

Les modèles communautaires sont-ils gratuits ?

La grande majorité, oui. Civitai et Hugging Face hébergent des milliers de modèles téléchargeables gratuitement. Les modèles de base (SD 1.5, SDXL, SD 3.5) sont open-source. Flux a des variantes gratuites (Schnell, Dev) et commerciales (Pro). Certains créateurs sur Civitai proposent des modèles en accès anticipé payant (via Patreon), mais les versions finales sont généralement gratuites.

Peut-on mélanger des modèles de différentes architectures ?

Non. Un LoRA entraîné sur SD 1.5 ne fonctionne pas avec un checkpoint SDXL, et inversement. Les LoRA Flux ne fonctionnent qu’avec des modèles Flux. Les embeddings SD 1.5 ne sont pas compatibles SDXL. Vérifiez toujours que votre LoRA/embedding correspond à l’architecture de votre checkpoint de base. C’est la source d’erreur numéro un pour les débutants.

Quelle est la différence entre un checkpoint et un LoRA ?

Un checkpoint est un modèle complet et autonome (2 à 12 Go) qui contient toutes les connaissances visuelles nécessaires pour générer des images. Un LoRA est un petit fichier additionnel (50 à 300 Mo) qui modifie le comportement d’un checkpoint existant pour ajouter un style, un personnage ou un concept spécifique. Un LoRA ne fonctionne pas seul : il doit être appliqué sur un checkpoint compatible. Pour en savoir plus, consultez notre guide Stable Diffusion LoRA.

Combien d’espace disque prévoir ?

Un checkpoint SDXL pèse environ 6,5 Go, un SD 1.5 environ 2 Go, un Flux environ 12 Go. Avec 3 à 5 checkpoints, quelques LoRA (50-300 Mo chacun), et l’interface, prévoyez 30 à 50 Go minimum sur un SSD. Si vous accumulez beaucoup de modèles, 100 Go ou plus est courant. L’utilisation de liens symboliques permet de partager les modèles entre A1111/Forge et ComfyUI sans duplication.