Prompts Stable Diffusion : le guide complet pour maîtriser vos images

Un prompt Stable Diffusion est une instruction textuelle qui guide le modèle de diffusion pour générer une image précise. La qualité de votre prompt détermine directement la qualité de votre image : un prompt vague donne un résultat générique, un prompt structuré donne un résultat contrôlé.

Ce guide couvre tout ce qu’il faut savoir pour écrire des prompts efficaces dans Stable Diffusion : la structure optimale, la syntaxe des poids et parenthèses, les negative prompts, les différences entre SD 1.5 et SDXL, les techniques avancées (BREAK, alternance, prompt scheduling), et des bibliothèques d’exemples prêts à l’emploi pour chaque style.

Principe: Texte → encodeur CLIP → vecteur conditionnel → guide la débruitage de l’image
Limite tokens: 75 tokens par chunk (SD 1.5), davantage pour SDXL (double encodeur CLIP)
Syntaxe poids: (mot:1.3) = emphase, [mot] = réduction, plage utile : 0.5 à 1.5
Negative prompt: Indispensable pour SD 2.x, recommandé pour SD 1.5 et SDXL
Différence SD 1.5 vs SDXL: SD 1.5 : tags séparés par virgules. SDXL : langage naturel, phrases descriptives
Interfaces: AUTOMATIC1111, ComfyUI, Forge, Fooocus

Anatomie d’un bon prompt

Un prompt efficace dans Stable Diffusion n’est pas une phrase littéraire. C’est une liste structurée de descripteurs qui guide le modèle vers le résultat voulu. Chaque catégorie de mots-clés contrôle un aspect de l’image.

Les catégories de mots-clés

1. Sujet (obligatoire) : c’est ce que vous voulez voir dans l’image. Soyez spécifique. « Une femme » est vague. « Une femme aux cheveux roux, la trentaine, portant une robe victorienne en velours bleu » donne au modèle de quoi travailler. Le sujet doit toujours apparaître en premier dans le prompt, car les premiers tokens ont plus d’influence.

2. Médium / Style artistique : définit le rendu visuel global. Exemples : digital painting, oil painting, photograph, 3D render, watercolor, pencil sketch, anime illustration, concept art. Vous pouvez aussi référencer des styles de sites comme artstation ou deviantart pour orienter l’esthétique.

3. Composition et cadrage : contrôle l’angle de vue et la disposition. Exemples : close-up portrait, full body shot, wide angle, bird's eye view, rule of thirds, centered composition, Dutch angle, macro shot, 85mm lens, f/1.8 aperture.

4. Éclairage : l’un des leviers les plus puissants pour changer l’ambiance. Exemples : golden hour, studio lighting, rim lighting, volumetric lighting, soft diffused light, dramatic chiaroscuro, neon glow, candlelight, backlit, harsh shadows.

5. Couleur et ambiance : oriente la palette et le ton émotionnel. Exemples : vibrant colors, muted tones, pastel palette, monochromatic, warm tones, cool blues, high contrast, desaturated.

6. Qualité et résolution : des mots-clés « boosters » qui poussent le modèle vers plus de détails. Exemples : highly detailed, sharp focus, 8K UHD, masterpiece, best quality, ultra realistic, intricate details. Attention : ces termes sont utiles mais ne remplacent pas un prompt bien structuré. Empiler dix boosters sur un sujet vague ne donne pas un bon résultat.

La formule de base

Voici une structure qui fonctionne pour la majorité des cas :

[Sujet détaillé], [Médium/Style], [Composition/Cadrage], [Éclairage], [Couleur/Ambiance], [Boosters qualité]

Exemple concret :

a young woman with freckles and auburn hair, wearing a linen shirt, sitting in a sunlit café, photograph, 85mm lens, shallow depth of field, golden hour light streaming through windows, warm tones, highly detailed, sharp focus

L’ordre compte Les tokens placés en début de prompt ont plus d’influence sur le résultat que ceux placés à la fin. Mettez toujours votre sujet principal en premier, suivi du style, puis des détails secondaires. Si un élément est ignoré par le modèle, rapprochez-le du début du prompt ou augmentez son poids.

SD 1.5 vs SDXL : deux langages différents

C’est un point fondamental que beaucoup de débutants ignorent. SD 1.5 et SDXL ne répondent pas de la même façon aux prompts.

SD 1.5 : tags et mots-clés

SD 1.5 utilise un seul encodeur CLIP (ViT-L/14) avec une limite de 75 tokens par chunk. Le modèle répond mieux à des mots-clés séparés par des virgules qu’à des phrases complètes. C’est le style « tag soup » :

1girl, long blonde hair, blue eyes, white dress, standing in flower field, sunny day, digital painting, artstation, highly detailed, masterpiece

Les tags descriptifs courts et précis sont plus efficaces que les phrases longues. Les modèles communautaires SD 1.5 (Dreamshaper, Realistic Vision, etc.) ont été entraînés principalement sur ce format.

SDXL : langage naturel

SDXL utilise un double encodeur texte (OpenCLIP ViT-bigG + CLIP ViT-L), ce qui lui donne une bien meilleure compréhension du langage naturel. Vous pouvez écrire des phrases descriptives complètes :

A young woman with long blonde hair and blue eyes stands in a vast flower field on a sunny summer day. She wears a flowing white dress that catches the breeze. The scene is rendered as a detailed digital painting with warm, golden lighting.

SDXL comprend les relations entre les mots, les adjectifs composés et les descriptions spatiales beaucoup mieux que SD 1.5. Si vous utilisez SDXL, profitez-en : décrivez la scène comme si vous la racontiez à quelqu’un.

Flux et le langage naturel Les modèles Flux (Black Forest Labs) poussent encore plus loin la compréhension du langage naturel. Avec Flux, vous pouvez écrire des prompts comme des descriptions naturelles sans aucune syntaxe spéciale. Les poids et les boosters de qualité sont généralement inutiles, car Flux a une excellente adhérence au prompt par défaut.

Negative prompts : ce que vous ne voulez pas

Le negative prompt indique au modèle les éléments à éviter dans l’image. Ce n’est pas une instruction littérale (« ne dessine pas de mains ») mais plutôt un vecteur directionnel qui pousse la génération loin des zones de l’espace latent associées à ces concepts.

Le negative prompt de base

Un negative prompt universel qui fonctionne pour la plupart des cas :

low quality, blurry, artifacts, grainy, cropped, ugly, duplicate, deformed, bad anatomy, bad proportions, extra limbs, extra fingers, mutated hands, poorly drawn face, disfigured, watermark, text, signature, username

Ce negative prompt est un filet de sécurité. Il n’élimine pas tous les problèmes, mais il réduit significativement les artefacts courants.

Utilisation avancée

Au-delà du boilerplate, les negative prompts peuvent servir de levier stylistique. Le principe : décrire le contraire du style que vous voulez.

Si vous visez du photoréalisme, ajoutez dans le negative prompt : cartoon, anime, illustration, painting, drawing, sketch, CGI, 3D render. Si vous visez de l’anime, ajoutez : realistic, photograph, 3D, CGI, photorealistic. Cela pousse le modèle plus fermement vers le style souhaité.

Pour les modèles SD 2.x, le negative prompt est quasi obligatoire. Sans lui, la qualité d’image chute drastiquement. Pour SD 1.5 et SDXL, il est optionnel mais fortement recommandé.

Embeddings négatifs

Plutôt que de taper une longue liste de mots négatifs, vous pouvez utiliser des embeddings pré-entraînés qui condensent des centaines de concepts négatifs en un seul token. Les plus populaires :

EasyNegative : le plus utilisé, un fourre-tout efficace pour éviter les artefacts courants. BadHandV4 : spécialisé dans la correction des mains (un problème classique de SD). bad-image-v2-39000 : embedding général anti-basse qualité.

Pour les utiliser, téléchargez le fichier .pt ou .safetensors, placez-le dans le dossier embeddings/ de votre interface, et tapez simplement le nom de l’embedding dans le champ du negative prompt.

Poids et syntaxe avancée

Parenthèses et crochets

Dans AUTOMATIC1111 et ComfyUI, vous pouvez contrôler l’attention du modèle sur chaque mot avec une syntaxe spécifique :

Augmenter l’attention (parenthèses) : (mot) multiplie le poids par 1.1. ((mot)) multiplie par 1.21 (1.1 × 1.1). Chaque couche supplémentaire de parenthèses multiplie par 1.1. Vous pouvez aussi spécifier directement : (mot:1.3) fixe le poids à 1.3.

Réduire l’attention (crochets) : [mot] divise le poids par 1.1 (soit environ 0.91). Chaque couche supplémentaire de crochets divise à nouveau. Utile pour atténuer un élément sans le supprimer complètement.

Ne dépassez pas 1.5 En pratique, la plage utile des poids est entre 0.5 et 1.5. Au-delà de 1.5-1.6, l’image commence à « brûler » : artefacts de couleur, distorsions, saturation excessive. En dessous de 0.4-0.5, le mot est quasiment ignoré. Restez dans la zone 0.7-1.4 pour des résultats prévisibles.

Raccourcis AUTOMATIC1111 : sélectionnez un mot et utilisez Ctrl+↑ pour augmenter son poids, Ctrl+↓ pour le réduire. Ctrl+←/→ navigue entre les mots, Alt+←/→ déplace le segment dans le prompt.

Le mot-clé BREAK

BREAK (en majuscules) termine le chunk de 75 tokens en cours et en commence un nouveau. Cela empêche les tokens d’un segment d’influencer ceux d’un autre. Utile pour les prompts longs où des éléments se mélangent de façon indésirable.

1girl, red hair, green eyes, smiling, wearing armor BREAK
forest background, ancient ruins, misty atmosphere, volumetric lighting

Ici, les descripteurs du personnage et ceux du décor sont séparés proprement, ce qui réduit les « fuites » (par exemple, les yeux verts qui contaminent la forêt ou inversement).

Alternance de mots

La syntaxe [mot1|mot2] alterne entre deux concepts à chaque étape de sampling. À l’étape 1, le modèle voit « mot1 », à l’étape 2 il voit « mot2 », et ainsi de suite. Le résultat est une fusion des deux concepts.

[cat|dog] sitting on a couch

Produit une créature hybride mi-chat mi-chien. C’est un outil créatif plus qu’utilitaire, mais il peut donner des résultats surprenants pour le concept art et l’exploration.

Prompt scheduling

Vous pouvez faire basculer un mot à un moment précis du sampling avec la syntaxe [mot1:mot2:step]. Avant l’étape indiquée, le modèle utilise « mot1 ». Après, il utilise « mot2 ».

[fantasy:cyberpunk:15] city at night, detailed architecture, dramatic lighting

Avec 30 steps de sampling, les 15 premières étapes construisent une ville fantasy, puis les 15 suivantes la font basculer vers le cyberpunk. Le résultat mélange les deux esthétiques de manière organique. Le step peut aussi être un ratio (0 à 1) : [fantasy:cyberpunk:0.5] produit le même effet.

Bibliothèque d’exemples par style

Photoréalisme

portrait of a 30-year-old man with short brown hair and stubble, wearing a navy wool coat, standing on a rainy London street at night, neon reflections on wet pavement, photograph, Canon EOS R5, 50mm f/1.4, shallow depth of field, cinematic color grading, moody atmosphere, highly detailed skin texture

Negative prompt : cartoon, anime, painting, illustration, CGI, 3D, plastic skin, airbrushed, overexposed, underexposed, watermark

Modèles recommandés : Juggernaut XL, Realistic Vision (SD 1.5), ou Flux Dev/Pro.

Fantasy / Concept art

an ancient dragon perched atop a crumbling stone tower, massive wings spread wide, storm clouds swirling, lightning illuminating the scene, epic fantasy illustration, concept art, artstation, volumetric lighting, intricate scales, highly detailed, cinematic composition

Negative prompt : modern elements, cars, buildings, low quality, blurry, bad anatomy, watermark, text

Modèles recommandés : DreamShaper XL, SDXL base + LoRA fantasy.

Anime / Manga

1girl, long silver hair, heterochromia (blue left eye, gold right eye), school uniform, rooftop scene, cherry blossoms falling, soft evening light, anime illustration, vibrant colors, clean lineart, detailed eyes, masterpiece, best quality

Negative prompt : realistic, photograph, 3D, CGI, bad anatomy, extra fingers, low quality, worst quality

Modèles recommandés : Anything V5 (SD 1.5), Animagine XL, Pony Diffusion V6 (avec les tags score_9, score_8_up en début de prompt).

Pony Diffusion : syntaxe spéciale Le modèle Pony Diffusion V6 nécessite des « score tags » au début du prompt positif pour fonctionner correctement : score_9, score_8_up, score_7_up. Sans ces tags, le modèle interprète votre prompt comme une demande de basse qualité. C’est un piège classique pour les nouveaux utilisateurs de Pony.

Paysage et environnement

vast alpine valley at dawn, snow-capped mountains in the background, a winding river reflecting pink and gold sky, pine forests on slopes, low hanging mist, landscape photography, ultra wide angle, high dynamic range, crisp details, National Geographic quality

Negative prompt : people, buildings, cars, modern structures, text, watermark, low quality, blurry

Photo de produit

minimalist product photo of a matte black ceramic coffee mug, floating on a clean white background, soft studio lighting, subtle shadow beneath, commercial photography, sharp focus, 100mm macro lens, neutral tones, premium feel

Negative prompt : hands, fingers, text, watermark, harsh shadows, reflections, busy background, low quality

Architecture et design d’intérieur

modern Scandinavian living room, large floor-to-ceiling windows overlooking a forest, minimalist furniture in light oak and white fabric, indoor plants, soft natural daylight, architectural photography, interior design magazine, wide angle, high resolution, warm atmosphere

Negative prompt : people, clutter, dark, low quality, distorted perspective, watermark

Les 10 erreurs les plus courantes

1. Prompt trop vague. « A beautiful woman » laisse le modèle deviner tout le reste. Décrivez l’apparence, la pose, le vêtement, le décor, l’éclairage.

2. Empiler des boosters sans sujet. « masterpiece, best quality, 8K, ultra detailed, amazing, incredible, epic » ne décrit rien. Les boosters amplifient un prompt, ils ne le remplacent pas.

3. Ignorer le negative prompt. Même un negative prompt basique (low quality, blurry, bad anatomy) améliore visiblement les résultats.

4. Poids trop élevés. (red hair:2.0) ne donne pas des cheveux « très rouges », ça brûle l’image. Restez entre 0.7 et 1.4.

5. Mélanger les styles SD 1.5 et SDXL. Un prompt de tags façon « danbooru » fonctionne mal sur SDXL. Un prompt en langage naturel fonctionne mal sur SD 1.5 avec des modèles anime. Adaptez votre format au modèle.

6. Prompt trop long et contradictoire. Au-delà de 150 tokens, les éléments en fin de prompt sont progressivement ignorés. Un prompt de 300 mots qui décrit une scène complexe avec des instructions contradictoires produit du bruit. Concentrez-vous sur l’essentiel.

7. Ne pas itérer. Ne changez pas tout entre deux générations. Modifiez un ou deux éléments à la fois. Générez au moins 4 images par configuration pour évaluer la tendance statistique, pas le cas unique.

8. Oublier le CFG Scale. Le CFG (Classifier-Free Guidance) Scale contrôle à quel point le modèle suit votre prompt. Trop bas (1-3) : le modèle ignore votre prompt. Trop haut (15-20) : artefacts et saturation. La zone optimale est généralement 7-12 pour SD 1.5, 5-8 pour SDXL.

9. Résolution inadaptée. SD 1.5 est optimisé pour 512×512 (ou 512×768 en portrait). SDXL est optimisé pour 1024×1024 (ou 832×1216). Générer du 512×512 avec SDXL donne des images floues et cassées. Respectez la résolution native du modèle.

10. Ne pas utiliser ADetailer pour les visages. Si vous générez des plans larges où les visages sont petits, ils seront souvent déformés. L’extension ADetailer (pour AUTOMATIC1111) détecte automatiquement les visages après génération, les masque, et les régénère à haute résolution. C’est un outil indispensable pour les portraits et les scènes avec personnages.

Outils et ressources pour les prompts

Générateurs de prompts

Plusieurs outils aident à construire des prompts structurés sans tout écrire manuellement. Promptomania et PromptHero proposent des interfaces visuelles où vous sélectionnez des catégories (sujet, style, éclairage, etc.) et le prompt se construit automatiquement. PromptsEra offre un générateur adapté à SDXL et Pony Diffusion avec gestion automatique des poids et des score tags.

CivitAI : la mine d’or

CivitAI est la plus grande source de prompts fonctionnels pour Stable Diffusion. Chaque image publiée inclut son prompt complet, ses paramètres (seed, sampler, steps, CFG), le modèle utilisé et les LoRAs actifs. Parcourez les images qui vous plaisent, récupérez leurs prompts comme point de départ, puis adaptez-les à vos besoins.

Utiliser un LLM pour générer des prompts

Vous pouvez demander à ChatGPT, Claude ou Gemini de vous aider à écrire des prompts Stable Diffusion. L’astuce : précisez le modèle cible (SD 1.5 ou SDXL), le style voulu, et demandez le prompt positif ET le negative prompt. Les LLMs sont excellents pour développer une idée vague en prompt structuré.

Techniques avancées

Regional Prompting

Les extensions Regional Prompter et Latent Couple (pour AUTOMATIC1111) permettent d’assigner des prompts différents à des zones spécifiques de l’image. Par exemple, vous pouvez décrire un personnage dans la moitié gauche et un autre dans la moitié droite, chacun avec ses propres attributs. C’est la solution quand un seul prompt ne suffit pas à séparer les éléments d’une scène complexe.

Prompt Matrix et X/Y/Z Plot

Le script X/Y/Z Plot (intégré à AUTOMATIC1111) permet de tester systématiquement l’impact de différents paramètres. Vous pouvez comparer l’effet de 5 styles différents combinés à 3 valeurs de CFG Scale dans une seule grille d’images. C’est l’outil de choix pour le prompt engineering méthodique : au lieu de deviner, vous visualisez l’espace des possibilités.

Textual Inversion (embeddings personnalisés)

Le Textual Inversion crée un nouveau « mot » qui encode un concept visuel spécifique (un style, un visage, un objet) dans un petit fichier embedding. Vous l’utilisez ensuite dans vos prompts comme n’importe quel mot. Par exemple, si vous entraînez un embedding appelé mystyle, vous pouvez écrire portrait of a woman, mystyle et le modèle appliquera ce style. Les embeddings sont plus légers que les LoRAs (quelques Ko) mais moins puissants pour les concepts complexes.

Prompts + ControlNet

Quand vous utilisez ControlNet, le prompt reste essentiel mais joue un rôle complémentaire. Le ControlNet gère la structure spatiale (pose, profondeur, contours), tandis que le prompt contrôle le contenu et le style. Par exemple, avec un ControlNet OpenPose qui dicte la pose, votre prompt peut se concentrer sur l’apparence, le vêtement, l’éclairage et le décor sans se soucier de la composition spatiale. Les deux se combinent pour un contrôle maximal.

Prompts par type de modèle

Modèle	Format de prompt	CFG recommandé	Résolution native	Spécificité
SD 1.5 (Dreamshaper, RV…)	Tags séparés par virgules	7-12	512×512 / 512×768	Boosters qualité utiles
SDXL (Juggernaut, base…)	Langage naturel + tags	5-8	1024×1024 / 832×1216	Double encodeur CLIP
SD 3.5	Langage naturel	4-7	1024×1024	Encodeur T5 + CLIP
Pony Diffusion V6	Tags anime + score tags	7-10	1024×1024	`score_9, score_8_up` obligatoire
Flux (Dev, Pro, Schnell)	Langage naturel pur	3.5-5	Variable (jusqu’à 2048)	Poids inutiles, prompt adherence élevée

Verdict

Maîtriser les prompts Stable Diffusion est un investissement qui se rembourse à chaque image. La différence entre un prompt structuré et un prompt vague est aussi grande que la différence entre deux modèles de qualité. Commencez par la formule de base (sujet + style + composition + éclairage + qualité), ajoutez un negative prompt standard, puis affinez itérativement. Utilisez les poids avec modération (0.7-1.4), adaptez votre format au modèle (tags pour SD 1.5, langage naturel pour SDXL/Flux), et explorez CivitAI pour comprendre ce qui fonctionne.

Le prompt engineering pour la génération d’images n’est pas une science exacte. C’est un mélange de technique et d’intuition qui s’affine avec la pratique. Les exemples et les structures de ce guide sont votre point de départ, pas votre destination.

Questions fréquentes sur les prompts Stable Diffusion

Les prompts Stable Diffusion fonctionnent-ils en français ?

Techniquement, le modèle CLIP de Stable Diffusion a été entraîné principalement sur des textes en anglais. Les prompts en français fonctionnent partiellement (le modèle capte le sens général) mais avec moins de précision que l’anglais, surtout pour les détails fins. SDXL et Flux comprennent mieux le français grâce à leurs encodeurs plus puissants, mais pour des résultats optimaux, écrivez vos prompts en anglais.

Quelle est la longueur maximale d’un prompt ?

SD 1.5 découpe le prompt en chunks de 75 tokens. Si votre prompt dépasse 75 tokens, les tokens supplémentaires passent dans un deuxième chunk avec une influence réduite. SDXL gère mieux les prompts longs grâce à son double encodeur, mais au-delà de 150-200 tokens, les éléments en fin de prompt sont progressivement ignorés. Visez 40 à 80 tokens pour un prompt efficace.

Comment obtenir des mains correctes ?

Les mains déformées sont le problème le plus célèbre de Stable Diffusion. Quatre approches complémentaires : ajoutez bad hands, extra fingers, mutated hands dans le negative prompt. Utilisez l’embedding BadHandV4. Utilisez ADetailer avec le modèle « hand_yolov8n » pour régénérer les mains automatiquement. Et pour un contrôle total, utilisez ControlNet avec OpenPose Hand pour dicter la position exacte des doigts.

Faut-il toujours utiliser des boosters de qualité ?

Pour SD 1.5, oui. Les mots-clés comme highly detailed, sharp focus, masterpiece, best quality améliorent significativement les résultats car le modèle a appris à les associer avec des images de haute qualité dans ses données d’entraînement. Pour SDXL, l’impact est moindre mais encore positif. Pour Flux, ils sont quasiment inutiles car le modèle produit déjà des résultats de haute qualité par défaut.

Comment reproduire un style artistique spécifique ?

Trois approches, par ordre de puissance. 1) Décrivez le style dans le prompt (oil painting, impressionist style, thick brushstrokes, warm palette). 2) Utilisez un LoRA entraîné sur ce style spécifique (des milliers sont disponibles sur CivitAI). 3) Utilisez IP-Adapter ou Reference Only dans ControlNet avec une image de référence dans le style voulu. La combinaison des trois donne le meilleur résultat.