SD 3.5 (Stable Diffusion 3) : la génération d’images passe à l’architecture Transformer

Définition rapide SD 3.5 (Stable Diffusion 3.5) est la dernière génération de modèles de génération d’images de Stability AI. Contrairement aux versions précédentes basées sur le U-Net, SD 3.5 adopte l’architecture Diffusion Transformer (DiT) et un triple encodeur texte (CLIP ViT-L, OpenCLIP ViT-bigG, T5-XXL), offrant une compréhension des prompts nettement supérieure à SDXL.

L’architecture Diffusion Transformer (DiT)

SD 3.5 marque une rupture architecturale avec les versions précédentes de Stable Diffusion. Le U-Net, backbone historique des modèles de diffusion depuis 2020, est remplacé par un Diffusion Transformer (DiT). Ce changement s’aligne sur une tendance de fond : les Transformers ont prouvé leur supériorité dans pratiquement toutes les tâches d’IA, et la génération d’images suit cette trajectoire.

L’architecture spécifique de SD 3.5 est le Multimodal Diffusion Transformer (MMDiT). Les embeddings texte et image sont traités dans un espace commun avec des blocs d’attention bidirectionnels. En pratique, cela signifie que le modèle aligne mieux ce que vous décrivez dans votre prompt avec ce qu’il génère. C’est particulièrement visible sur les compositions complexes impliquant plusieurs objets avec des attributs distincts (par exemple : « un chat noir à gauche et un chien blanc à droite portant un chapeau rouge »).

Le passage au DiT apporte aussi une meilleure scalabilité : là où les U-Nets atteignent un plafond de performance au-delà d’une certaine taille, les Transformers continuent de s’améliorer avec l’augmentation des paramètres. C’est la même dynamique qui a propulsé les LLMs comme GPT et Claude.

Le triple encodeur texte

L’autre innovation majeure de SD 3.5 est son triple encodeur texte, qui concatène les embeddings de trois modèles distincts :

CLIP ViT-L (77 tokens max) : le même encodeur que SD 1.5 et SDXL. Efficace pour les concepts courts et les associations visuelles directes. Il « comprend » les images parce qu’il a été entraîné simultanément sur des paires texte-image.

OpenCLIP ViT-bigG (77 tokens max) : un encodeur plus large, aussi présent dans SDXL. Meilleur sur les détails visuels fins, les styles artistiques et les compositions spatiales.

T5-XXL (512 tokens max) : c’est l’ajout décisif. T5-XXL est un encodeur texte de 4,7 milliards de paramètres qui comprend les nuances linguistiques bien au-delà de ce que CLIP peut offrir. Il traite des prompts longs et complexes en langage naturel, comprend la négation (« un chat sans chapeau »), les relations spatiales précises (« au premier plan, derrière, à côté de ») et les concepts abstraits.

L’impact pratique est considérable : là où SDXL nécessitait des prompts très structurés avec des mots-clés séparés par des virgules, SD 3.5 comprend des descriptions en langage naturel fluide. Vous pouvez écrire un prompt comme une phrase complète et obtenir un résultat cohérent.

Les variantes de SD 3.5

Variante	Paramètres	VRAM minimum	Résolution	Forces
SD 3.5 Large	~8B	10-12 Go	1024×1024	Meilleure qualité brute, rendu de texte amélioré, compositions complexes
SD 3.5 Large Turbo	~8B	10-12 Go	1024×1024	4 steps au lieu de 28-50, qualité proche du Large standard
SD 3.5 Medium	~2,5B	8 Go	1024×1024	Compromis taille/qualité, tourne sur GPU consumer 8 Go

SD 3.5 Large : la qualité maximale

SD 3.5 Large est le modèle phare avec environ 8 milliards de paramètres. Il représente un bond qualitatif par rapport à SDXL sur plusieurs axes : cohérence des compositions multi-sujets, rendu de texte dans les images (grâce à T5-XXL), anatomie humaine (mains, doigts, visages) et fidélité au prompt. Il nécessite 10-12 Go de VRAM en FP16, ce qui le rend accessible sur une RTX 3080 ou RTX 4070 Ti.

La version Large Turbo utilise la distillation pour réduire le nombre de steps nécessaires à environ 4, avec une qualité proche du modèle standard. Elle est idéale pour le prototypage rapide avant de passer au pipeline complet pour les rendus finaux.

SD 3.5 Medium : le compromis accessible

SD 3.5 Medium est une version compacte d’environ 2,5 milliards de paramètres, conçue pour tourner confortablement sur des GPU 8 Go (RTX 3060, RTX 4060). Sa qualité est inférieure au Large mais supérieure à SDXL de base sur la compréhension des prompts et le rendu de texte, grâce à l’architecture DiT et au T5-XXL. C’est un bon choix si vous voulez les avantages de SD 3.5 sans investir dans un GPU 12 Go+.

Optimisations NVIDIA et déploiement enterprise

Stability AI a collaboré étroitement avec NVIDIA pour optimiser SD 3.5 en environnement de production :

SD 3.5 NIM microservice : un conteneur Docker prêt à l’emploi pour le déploiement enterprise, intégré à la plateforme NVIDIA AI Enterprise. Il simplifie considérablement le déploiement en production avec des performances optimisées out-of-the-box.

Optimisations TensorRT et FP8 : en collaboration avec NVIDIA, Stability AI a publié des versions optimisées de SD 3.5 utilisant TensorRT pour accélérer l’inférence et la quantification FP8 pour réduire les besoins en VRAM sur les GPU RTX compatibles. Les gains annoncés : vitesse de génération améliorée et réduction significative de la VRAM sur les GPU Hopper et Ada Lovelace.

Azure AI Foundry : SD 3.5 Large est disponible dans le catalogue de modèles Azure AI Foundry de Microsoft, offrant aux entreprises un accès direct depuis leur infrastructure cloud existante avec les garanties de sécurité et de conformité Azure.

Optimisations AMD : des versions ONNX optimisées de la famille Stable Diffusion ont été publiées en collaboration avec AMD, conçues pour tourner plus rapidement sur les GPU Radeon et les APU Ryzen AI.

La licence Stability Community

SD 3.5 utilise la Stability Community License, qui diffère significativement de la licence CreativeML OpenRAIL-M utilisée par SD 1.5 et SDXL. Les points clés :

Gratuit pour les individus et les petites entreprises : si votre chiffre d’affaires annuel est inférieur à 1 million de dollars, l’utilisation est gratuite, y compris pour un usage commercial. Vous possédez les droits sur vos images générées.

Licence enterprise requise au-delà : les entreprises dépassant le seuil de 1 million de dollars de CA doivent obtenir une licence enterprise payante auprès de Stability AI. Les conditions et tarifs sont négociés au cas par cas.

Pas de licence libre : contrairement à ce qu’on lit parfois, SD 3.5 n’est pas « open source » au sens strict de l’OSI. Les poids sont publics et téléchargeables, mais l’usage est encadré par des conditions commerciales. Le terme exact est « open-weight » avec restrictions.

Vérifiez avant de déployer Si vous développez un produit ou service commercial utilisant SD 3.5, vérifiez votre éligibilité au seuil de 1 million de dollars de CA. Ce seuil s’applique à l’ensemble de l’entreprise, pas uniquement au projet utilisant SD 3.5. Pour les startups en croissance rapide, anticipez le passage à la licence enterprise dès que vous approchez du seuil.

L’écosystème SD 3.5 en 2026

C’est le point faible de SD 3.5 par rapport à SDXL. L’écosystème communautaire est encore limité :

LoRAs : quelques centaines de LoRAs SD 3.5 existent sur CivitAI, contre des dizaines de milliers pour SDXL. L’entraînement de LoRAs sur SD 3.5 est plus complexe en raison de l’architecture DiT (les outils de fine-tuning classiques ont dû être adaptés).

ControlNet : les implémentations ControlNet pour SD 3.5 existent mais sont moins matures que celles d’SDXL. Les modes de base (Canny, Depth, Pose) fonctionnent, mais les modes plus exotiques (segmentation, normales, QR codes) sont rares ou expérimentaux.

Interfaces : ComfyUI supporte pleinement SD 3.5 avec des nœuds dédiés. A1111 et Forge le supportent aussi via des extensions, mais l’intégration est moins native que pour SDXL.

Fine-tunes communautaires : très peu de checkpoints fine-tunés par la communauté. L’architecture DiT et la licence plus restrictive ont freiné l’adoption par les créateurs de modèles indépendants.

SD 3.5 vs SDXL vs Flux 2

Critère	SDXL	SD 3.5 Large	Flux 2 dev (BFL)
Architecture	U-Net (~3,5B)	DiT MMDiT (~8B)	Rectified Flow Transformer (32B)
Encodeur texte	CLIP + OpenCLIP	CLIP + OpenCLIP + T5-XXL	CLIP + T5 + Mistral-Small
Résolution max	1024×1024	1024×1024	4MP (2048×2048)
VRAM minimum	8 Go	10 Go	12 Go+ (quantifié FP8)
Qualité photoréaliste	★★★★ (avec fine-tunes)	★★★★☆	★★★★★
Rendu de texte	★★	★★★	★★★★
Compréhension prompt	★★★★	★★★★★	★★★★★
Écosystème LoRA	★★★★★	★★	★★★ (en croissance)
ControlNet	★★★★★	★★★	★★★ (multi-ref natif)
Licence	OpenRAIL-M ✅	Community (seuil 1M$) ⚠️	Apache 2.0 (schnell/klein 4B) ✅
Édition multi-référence	❌ (via IP-Adapter)	❌	✅ Natif

Verdict Polydesk SD 3.5 est un bon modèle dans l’absolu, mais il se retrouve coincé entre deux mondes. SDXL offre un écosystème incomparablement plus riche pour la personnalisation, avec une licence plus permissive. Flux 2 de Black Forest Labs (fondé par d’anciens ingénieurs de Stability AI, dont le co-créateur de Stable Diffusion) offre une qualité supérieure, une résolution 4MP, l’édition multi-référence native, et une licence Apache 2.0 sur ses modèles rapides. SD 3.5 reste pertinent si vous êtes déjà dans l’écosystème Stability AI (API, NIM) ou si vous avez besoin spécifiquement du T5-XXL pour des prompts en langage naturel complexe. Pour un nouveau projet en 2026, regardez Flux 2 en priorité.

Utiliser SD 3.5 en pratique

Dans ComfyUI

ComfyUI offre le support le plus complet de SD 3.5. Le workflow de base nécessite :

1. Téléchargez le checkpoint SD 3.5 Large ou Medium depuis Hugging Face (nécessite d’accepter la licence). Placez le fichier .safetensors dans le dossier models/checkpoints/.

2. Téléchargez séparément les encodeurs texte (CLIP-L, CLIP-G, T5-XXL). Le T5-XXL pèse environ 10 Go, mais des versions quantifiées FP8 (~5 Go) sont disponibles sur Hugging Face avec un impact minimal sur la qualité.

3. Utilisez les nœuds dédiés SD 3.5 dans ComfyUI : « CheckpointLoaderSimple » pour le modèle, « CLIPTextEncodeSD3 » pour le prompt (qui gère les trois encodeurs), et le sampler standard.

4. Paramètres recommandés : CFG 4.5-7.0, sampler Euler avec 28-50 steps (ou 4 steps pour la variante Turbo), résolution 1024×1024.

Prompting pour SD 3.5

Grâce au T5-XXL, SD 3.5 comprend les prompts en langage naturel bien mieux que SDXL. Quelques conseils spécifiques :

Écrivez en phrases complètes plutôt qu’en mots-clés séparés par des virgules. « Un homme d’affaires en costume bleu marine qui marche dans une rue de Tokyo sous la pluie, reflets néon sur le sol mouillé, photographie nocturne » fonctionne mieux que le format tags traditionnel.

Le negative prompt est moins critique qu’avec SDXL. SD 3.5 produit des résultats raisonnables même sans negative prompt. Cela dit, ajouter « blurry, low quality, deformed » reste utile pour éliminer les cas limites.

Exploitez les descriptions spatiales : « à gauche », « au premier plan », « derrière », « au-dessus de ». Le T5-XXL comprend ces relations bien mieux que les encodeurs CLIP seuls.

Le rendu de texte est amélioré mais pas parfait. Pour du texte dans l’image, encadrez-le de guillemets dans votre prompt : une enseigne qui dit « Boulangerie Martin ». Le résultat sera plus lisible qu’avec SDXL, mais n’atteint pas la précision de Ideogram 3.0 ou de GPT Image 1.5.

L’avenir de Stability AI et de SD 3.5

Stability AI a traversé une période difficile (départ du fondateur Emad Mostaque en mars 2024, restructuration, concurrence accrue de Flux/Black Forest Labs). Sous la direction du CEO Prem Akkaraju, l’entreprise pivote vers le B2B avec un focus sur les solutions enterprise (API, NIM, Azure AI Foundry).

En 2026, Stability AI a atteint la conformité SOC 2 Type II et SOC 3. L’entreprise développe aussi Stable Audio, Stable Video Diffusion (SV4D 2.0) et a recruté Robert Legato (vétéran VFX d’Hollywood) comme Chief Pipeline Architect, signalant un virage vers l’industrie créative professionnelle.

La question ouverte : Stability AI publiera-t-elle un SD 4 ? Aucune annonce officielle à date. La concurrence de Flux 2 (fondé par Robin Rombach, co-créateur originel de Stable Diffusion) est intense, et l’écosystème communautaire migre progressivement vers les modèles Flux. L’avenir de Stability AI semble davantage orienté vers les services enterprise que vers la course au meilleur modèle open-weight.

Questions fréquentes sur SD 3.5

SD 3.5 est-il meilleur que SDXL ?

En qualité brute, oui. SD 3.5 Large offre une meilleure compréhension des prompts complexes (grâce au T5-XXL), un rendu de texte amélioré et des compositions multi-sujets plus cohérentes. Cependant, SDXL dispose d’un écosystème de LoRAs, ControlNets et fine-tunes communautaires incomparablement plus riche. Si la personnalisation fine est votre priorité, SDXL reste supérieur. Si vous voulez la meilleure qualité de base avec des prompts en langage naturel, SD 3.5 Large.

Quelle VRAM faut-il pour SD 3.5 ?

SD 3.5 Medium tourne sur 8 Go de VRAM. SD 3.5 Large nécessite 10-12 Go en FP16 (RTX 3080, RTX 4070 Ti minimum). Le T5-XXL peut être chargé en version quantifiée FP8 (~5 Go au lieu de 10 Go) pour réduire l’empreinte mémoire totale. Avec le CPU offload dans ComfyUI, il est possible de faire tourner SD 3.5 Large sur un GPU 8 Go, mais l’inférence sera significativement plus lente.

SD 3.5 est-il open source ?

Non, pas au sens strict. SD 3.5 est « open-weight » : les poids du modèle sont publics et téléchargeables, mais l’usage est encadré par la Stability Community License. Cette licence est gratuite pour les individus et les entreprises dont le CA est inférieur à 1 million de dollars. Au-delà, une licence enterprise payante est requise. Ce n’est pas une licence libre (OSI/FSF).

SD 3.5 ou Flux 2 ?

Flux 2 de Black Forest Labs surpasse SD 3.5 sur la plupart des critères : qualité photoréaliste, résolution (jusqu’à 4MP), édition multi-référence native, et licence plus permissive (Apache 2.0 pour les variantes schnell et klein 4B). SD 3.5 conserve un avantage si vous êtes dans l’écosystème Stability AI (API, NIM, Azure) ou si les outils spécifiques à l’écosystème SD (certains ControlNets, workflows ComfyUI établis) sont critiques pour votre workflow.

Le T5-XXL est-il obligatoire avec SD 3.5 ?

Techniquement, SD 3.5 peut fonctionner sans T5-XXL (en n’utilisant que les encodeurs CLIP). Mais vous perdez alors le principal avantage de SD 3.5 : la compréhension des prompts en langage naturel. Sans T5-XXL, la qualité de compréhension des prompts retombe au niveau d’SDXL. Si l’espace disque est un souci, utilisez la version quantifiée FP8 du T5-XXL (~5 Go au lieu de 10 Go) plutôt que de le supprimer entièrement.