Flux (Black Forest Labs) : le concurrent open-weight qui redéfinit la génération d’images

Définition rapide Flux est une famille de modèles de génération d’images développée par Black Forest Labs (BFL), une startup fondée par d’anciens ingénieurs de Stability AI, dont Robin Rombach, co-créateur de Stable Diffusion. Flux 2, la génération actuelle, est un modèle de 32 milliards de paramètres basé sur l’architecture Rectified Flow Transformer, capable de générer et d’éditer des images en résolution jusqu’à 4 mégapixels avec édition multi-référence native.

Black Forest Labs : l’histoire derrière Flux

Black Forest Labs a été fondée par des chercheurs qui ont créé l’architecture de diffusion latente à l’origine de Stable Diffusion. Robin Rombach (premier auteur du paper Latent Diffusion Models), Andreas Blattmann, Patrick Esser et d’autres membres de l’équipe de recherche originale ont quitté Stability AI pour fonder BFL avec une vision claire : construire des modèles de génération visuelle de pointe, à la fois ouverts et production-ready.

La startup a levé 300 millions de dollars en Série B (annoncée en décembre 2025), ce qui en fait l’un des acteurs les mieux financés du domaine. BFL se positionne comme le laboratoire de recherche frontière pour l’intelligence visuelle, avec l’ambition de construire des « world models » capables de comprendre et simuler le monde physique.

De Flux 1 à Flux 2 : l’évolution

Flux 1 (lancé en août 2024) a immédiatement marqué le marché avec trois variantes : Flux 1 pro (commercial, via API), Flux 1 dev (12 milliards de paramètres, open-weight non commercial), et Flux 1 schnell (distillé, rapide, Apache 2.0). Flux 1 schnell est devenu l’un des modèles les plus populaires du catalogue Cloudflare Workers AI grâce à sa qualité photoréaliste et sa vitesse.

Flux 2 (lancé le 25 novembre 2025) représente un saut générationnel. Le modèle passe à 32 milliards de paramètres (contre 12B pour Flux 1 dev), avec un VAE considérablement amélioré et des capacités d’édition multi-référence native. Vous pouvez fournir jusqu’à 4 images de référence et demander au modèle de combiner sujets, styles et environnements dans une seule génération, sans ControlNet ni adaptateur externe.

Flux 2 klein (lancé le 15 janvier 2026) est la famille de modèles rapides et légers : 4B et 9B paramètres, conçus pour le matériel consumer et les applications temps réel. Le modèle klein 4B génère des images en moins d’une seconde sur du matériel grand public et est distribué sous licence Apache 2.0.

Architecture technique de Flux 2

Flux 2 utilise l’architecture Rectified Flow Transformer, une évolution des modèles de diffusion classiques. Les différences clés avec Stable Diffusion :

Rectified Flow : au lieu du processus de diffusion/débruitage itératif classique (ajouter du bruit gaussien puis le retirer progressivement), les Rectified Flow models apprennent des trajectoires directes entre le bruit et l’image. En pratique, cela permet une génération plus efficace avec moins d’étapes et une meilleure stabilité.

Backbone Transformer (32B paramètres) : comme SD 3.5, Flux 2 abandonne le U-Net au profit d’un Transformer. Mais Flux 2 va beaucoup plus loin en taille : 32 milliards de paramètres contre ~8B pour SD 3.5 Large. Cette échelle se traduit par une compréhension plus fine des prompts, un photoréalisme supérieur et une meilleure gestion des détails complexes.

Encodeur texte hybride : Flux 2 dev utilise CLIP, T5 et Mistral-Small-3.2-24B-Instruct pour l’encodage textuel. L’utilisation d’un LLM instruct (Mistral Small) comme encodeur texte est une innovation qui permet au modèle de comprendre des instructions complexes et de faire du « prompt upsampling » natif : un prompt court est automatiquement enrichi en prompt détaillé avant la génération.

VAE amélioré : le VAE de Flux 2 est une amélioration significative par rapport à celui de Flux 1, avec un meilleur rendu des détails fins, des textures et de la fidélité colorimétrique. Il est publié séparément sous licence Apache 2.0.

Résolution jusqu’à 4MP : Flux 2 génère nativement des images jusqu’à 4 mégapixels (environ 2048×2048), contre 1024×1024 pour SDXL et SD 3.5. La qualité d’éclairage, d’ombres, de reflets et de perception de la profondeur est remarquable, produisant des images qui éliminent le « look IA » caractéristique des modèles de génération précédents.

La famille de modèles Flux 2

Modèle	Paramètres	VRAM	Vitesse	Licence	Usage
Flux 2 [max]	32B	GPU datacenter	Standard	Commercial (API)	Qualité maximale, production pro
Flux 2 [pro]	32B	GPU datacenter	Standard	Commercial (API)	Production, API intégrée
Flux 2 [flex]	32B	GPU datacenter	Rapide	Commercial (API)	Compromis qualité/vitesse
Flux 2 [dev]	32B	64 Go+ (90 Go natif, ~40 Go FP8)	Standard	Non commerciale	Recherche, expérimentation, fine-tuning
Flux 2 [klein] 9B	9B	~20 Go (natif)	Rapide	Non commerciale	Génération rapide, édition
Flux 2 [klein] 4B	4B	~13 Go	Sub-seconde	Apache 2.0 ✅	Temps réel, consumer, production

Flux 2 [dev] : le modèle open-weight de référence

Flux 2 dev est le modèle open-weight phare avec 32 milliards de paramètres. Il est considéré comme le meilleur modèle de génération d’images open-weight disponible en 2026, avec une qualité qui rivalise ou surpasse les modèles propriétaires. Ses capacités incluent la génération text-to-image, l’édition single-reference et l’édition multi-référence (jusqu’à 4 images), le tout dans un seul modèle unifié.

Le défi principal est sa taille : 32B paramètres nécessitent environ 90 Go de VRAM en natif. En pratique, grâce aux quantifications FP8 et au partenariat NVIDIA/ComfyUI, le modèle tourne sur une RTX 4090 (24 Go) via le weight streaming (les poids sont chargés et déchargés dynamiquement). NVIDIA et BFL ont collaboré pour réduire les besoins en VRAM de 40 % via les quantifications FP8 disponibles directement dans ComfyUI.

Hugging Face propose aussi des versions avec encodeur texte distant (remote text encoder) : le T5/Mistral est exécuté sur les serveurs Hugging Face, et seul le Transformer principal tourne localement. Cela réduit encore les besoins en VRAM locale.

Flux 2 [klein] : la génération sub-seconde

La famille klein (du mot allemand pour « petit ») a été lancée le 15 janvier 2026 avec deux variantes : 4B et 9B paramètres. Le modèle 4B est particulièrement remarquable pour plusieurs raisons :

Vitesse : génération d’images en moins d’une demi-seconde sur du matériel moderne (NVIDIA GB200). Même sur un GPU consumer comme une RTX 3090 ou RTX 4070, le modèle tient dans environ 13 Go de VRAM et génère rapidement.

Licence Apache 2.0 : le klein 4B est le seul modèle de la famille Flux 2 avec une licence totalement ouverte. Les entreprises de toute taille peuvent l’utiliser commercialement sans restriction.

Architecture unifiée : comme le Flux 2 dev, les modèles klein unifient génération et édition. Vous pouvez passer de la génération text-to-image à l’édition image-to-image sans changer de pipeline.

Distillation : les variantes klein distillées ne nécessitent que 4 étapes pour générer une image, contre 25-50 pour le modèle dev complet. Cette distillation est ce qui rend la génération quasi instantanée.

L’édition multi-référence : la killer feature de Flux 2

C’est la capacité qui différencie le plus Flux 2 de Stable Diffusion et des autres modèles de génération. Historiquement, les modèles de diffusion nécessitaient des pipelines complexes (ControlNet, IP-Adapter, etc.) pour intégrer des images de référence. Flux 2 intègre nativement cette capacité :

Jusqu’à 4 images de référence : vous pouvez fournir des images source et demander au modèle de les combiner ou de les transformer. Exemples : « Mets le sujet de l’image 2 dans le style de l’image 1 », « Crée un portrait de l’animal de l’image 1 dans la pose de l’image 2, illustré dans le style artistique de l’image 3 ».

Cohérence de sujet : changez l’arrière-plan, l’éclairage ou la pose d’une image sans que le visage du sujet ou le design d’un produit ne change. C’est ce qui rend Flux 2 viable pour les cas d’usage commerciaux : publicités avec le même acteur dans 50 scènes différentes, photos produit dans différents environnements, éditions de mode avec identité visuelle constante.

Sans fine-tuning : tout se fait en « zero-shot », directement via le prompt et les images de référence. Pas besoin d’entraîner un LoRA ou un DreamBooth pour obtenir la cohérence de personnage.

Installer et utiliser Flux localement

Flux dans ComfyUI

ComfyUI est l’interface recommandée pour Flux. NVIDIA et BFL ont collaboré directement avec ComfyUI pour optimiser le support de Flux 2 au lancement. Les workflows sont disponibles dans le repo GitHub officiel de Flux 2 :

1. Téléchargez le modèle depuis Hugging Face (nécessite d’accepter la licence). Pour Flux 2 dev, la version FP8 quantifiée est recommandée pour le matériel consumer.

2. Téléchargez séparément le VAE Flux 2 (Apache 2.0) et l’encodeur texte. Alternativement, utilisez le remote text encoder de Hugging Face pour réduire la VRAM locale.

3. Importez les workflows JSON fournis par BFL : image_flux2_klein_text_to_image.json pour la génération, et les variantes editing pour l’édition.

4. Pour Flux 2 klein, le processus est plus simple : les modèles 4B et 9B tiennent en VRAM sur du matériel consumer sans quantification ni offload.

Matériel nécessaire

Modèle Flux	GPU recommandé	VRAM	Temps par image
Flux 2 klein 4B	RTX 3090 / RTX 4070	~13 Go	< 1 seconde
Flux 2 klein 9B	RTX 4090	~20 Go	~2-5 secondes
Flux 2 dev (FP8)	RTX 4090 (weight streaming)	24 Go	~30-60 secondes
Flux 2 dev (natif)	A100/H100	80 Go+	~10-20 secondes

Astuce RTX 4090 Grâce au travail de NVIDIA et ComfyUI sur le weight streaming (chargement dynamique des poids), Flux 2 dev tourne sur une RTX 4090 24 Go en mode FP8. C’est plus lent qu’un GPU datacenter, mais c’est fonctionnel pour de l’expérimentation et du fine-tuning. NVIDIA a amélioré la fonction RAM offload de ComfyUI spécifiquement pour ce cas d’usage.

Utiliser Flux via API

Pour ceux qui ne veulent pas gérer l’infrastructure GPU, Flux est disponible via plusieurs API :

BFL API (api.bfl.ai) : l’API officielle de Black Forest Labs, avec accès aux modèles max, pro, flex et klein.

Replicate : hébergement serverless avec des cold starts raisonnables. Facturation à la seconde GPU.

fal.ai : plateforme d’inférence rapide, partenaire officiel de BFL. Les modèles Flux sont parmi les plus populaires de leur catalogue.

Cloudflare Workers AI : Flux 2 dev est disponible sur Workers AI via un endpoint API REST. Cloudflare a publié un guide détaillé sur l’utilisation de Flux 2 avec support multipart form-data pour les images de référence (jusqu’à 4 images 512×512).

Mystic : autre partenaire d’hébergement officiel de BFL.

Écrire des prompts pour Flux

Flux 2 se distingue par sa compréhension du langage naturel, nettement supérieure à SDXL. Le style de prompting est différent des modèles Stable Diffusion :

Langage naturel, pas de tags : écrivez vos prompts comme si vous décriviez une photo à quelqu’un. « Un portrait cinématique d’une femme aux cheveux roux dans un café parisien baigné de lumière dorée » fonctionne mieux que les listes de tags séparées par des virgules. Pas besoin de « comma-separated tags » ni de « booru tags ».

Pas de negative prompt : Flux utilise la « guidance distillation » et ne nécessite pas (et ne supporte pas de la même manière) les negative prompts traditionnels. Le modèle produit des résultats de haute qualité par défaut.

Prompt upsampling : Flux 2 dev offre l’option de « prompt upsampling » natif via son encodeur Mistral-Small. Un prompt court est automatiquement enrichi en description détaillée avant la génération. Cela peut être activé localement ou via API (OpenRouter).

Le texte dans les images : Flux 2 gère correctement le rendu de texte dans les images, bien mieux que SDXL. Mettez le texte souhaité entre guillemets dans votre prompt : un panneau avec l’inscription « Bienvenue à Paris ».

Multilingue : Flux 2 comprend plusieurs langues nativement. Un prompt en français produit des résultats cohérents, y compris pour le texte dans les images.

Flux 2 vs Stable Diffusion vs Midjourney

Critère	Flux 2 (dev/klein)	SDXL	SD 3.5	Midjourney V7/V8
Paramètres	32B (dev) / 4-9B (klein)	~3,5B	~2-8B	Propriétaire
Résolution max	4MP (2048×2048)	1024×1024	1024×1024	2K (V8 –hd)
Qualité photoréaliste	★★★★★	★★★★	★★★★☆	★★★★★
Édition multi-référence	✅ Natif (4 images)	❌ (IP-Adapter)	❌	✅ (sref, cref, moodboards)
Rendu de texte	★★★★	★★	★★★	★★★ (V8 amélioré)
Écosystème LoRA	★★★ (en croissance)	★★★★★	★★	N/A
Exécution locale	✅ (klein 4B sur 13 Go VRAM)	✅ (8 Go VRAM)	✅ (10 Go VRAM)	❌
Licence commerciale	✅ (klein 4B Apache 2.0)	✅ (OpenRAIL-M)	⚠️ (seuil 1M$ CA)	✅ (abonnement)
Coût	$0 local / API dès ~$0.01	$0 local	$0 local	Dès $10/mois

Verdict Polydesk Flux 2 est le meilleur modèle de génération d’images open-weight disponible en mars 2026. Sa qualité photoréaliste, sa résolution 4MP, son édition multi-référence native et son prompt upsampling en font un concurrent sérieux face à Midjourney. Le modèle klein 4B (Apache 2.0, sub-seconde sur GPU consumer) est une option de production crédible pour les startups et les entreprises. Le principal frein reste l’écosystème de personnalisation (LoRAs, fine-tunes) qui est encore jeune comparé à SDXL. Si vous avez besoin de LoRAs spécialisés et de ControlNets avancés, SDXL reste plus adapté. Pour tout le reste, Flux 2 est le nouveau standard.

Cas d’usage concrets de Flux 2

Publicité et marketing : générez des dizaines de variations publicitaires avec le même acteur/produit dans différents environnements grâce à l’édition multi-référence. Le produit ou le visage reste cohérent entre les images, ce qui élimine le problème historique de consistance des modèles de diffusion.

E-commerce et product shots : prenez une photo de votre produit et placez-la dans différentes scènes (plage, bureau, cuisine) sans que le design du produit ne change. Flux 2 comprend le contexte et ajuste l’éclairage et les ombres en conséquence.

Éditions de mode : produisez un spread complet avec un modèle identique dans chaque image, en changeant uniquement la tenue, la pose ou le lieu.

Design de landing pages : Flux 2 peut générer des maquettes de pages web et des infographies détaillées directement depuis un prompt, y compris en français.

Prototypage rapide : le modèle klein 4B permet une itération sub-seconde, comparable au Draft Mode de Midjourney V7 mais exécutable localement et gratuitement.

Fine-tuning et personnalisation de Flux

L’écosystème de personnalisation de Flux 2 est en croissance rapide, même s’il n’a pas encore la maturité de celui de SDXL :

LoRA Flux : des LoRAs Flux sont entraînables et disponibles en nombre croissant sur CivitAI et Hugging Face. L’entraînement est plus coûteux en calcul qu’un LoRA SDXL en raison de la taille du modèle, mais les résultats sont souvent supérieurs grâce à la meilleure capacité de base.

Flux 2 dev pour le fine-tuning : la variante dev est spécifiquement conçue pour servir de base au fine-tuning et au développement de workflows custom. Sa licence non commerciale couvre l’expérimentation et la recherche.

ControlNet Flux : des implémentations de ControlNet pour Flux existent, mais la capacité d’édition multi-référence native rend beaucoup de cas d’usage ControlNet classiques superflus. Pour la pose humaine et la carte de profondeur, ControlNet reste utile.

L’avenir de Flux

Avec 300 millions de dollars de Série B, Black Forest Labs a les moyens de ses ambitions. La roadmap visible inclut :

World models : BFL développe des modèles capables de comprendre et simuler la physique du monde réel, pas uniquement de générer des images statiques. Le concept de « grounding search » vise à ancrer les générations dans une compréhension physique réaliste.

Modèles encore plus rapides : la tendance klein montre que BFL investit dans l’inférence temps réel sur matériel consumer. Des modèles encore plus compacts et rapides sont probables.

Écosystème ouvert : la licence Apache 2.0 sur le klein 4B et le VAE signale une volonté de construire un écosystème ouvert autour de Flux, comparable à ce que Stable Diffusion a créé avec sa communauté.

Questions fréquentes sur Flux

Flux est-il gratuit ?

Partiellement. Flux 2 klein 4B est sous licence Apache 2.0 : gratuit, y compris pour un usage commercial, exécutable localement. Flux 2 dev (32B) est open-weight mais sous licence non commerciale. Les modèles Flux 2 pro, max et flex sont accessibles uniquement via des API payantes. En résumé : gratuit pour l’expérimentation et la production avec klein 4B, payant pour les modèles haut de gamme via API.

Quelle carte graphique pour Flux ?

Flux 2 klein 4B : RTX 3090 ou RTX 4070 (~13 Go VRAM), génération sub-seconde. Flux 2 klein 9B : RTX 4090 recommandée (~20 Go). Flux 2 dev (FP8 quantifié) : RTX 4090 24 Go avec weight streaming (fonctionnel mais lent). Flux 2 dev natif : GPU datacenter (A100 80 Go, H100). Pour la plupart des utilisateurs, le klein 4B est le point d’entrée le plus accessible.

Flux remplace-t-il Stable Diffusion ?

Pour la qualité brute de génération, oui, Flux 2 surpasse SDXL et SD 3.5. Pour l’écosystème de personnalisation (milliers de LoRAs, ControlNets, fine-tunes communautaires), SDXL reste supérieur. Les deux coexistent dans ComfyUI et servent des cas d’usage complémentaires. À terme, l’écosystème Flux devrait rattraper celui de SDXL, mais ce n’est pas encore le cas en mars 2026.

Flux 2 vs Midjourney V8 ?

Midjourney V8 Alpha (lancée le 17 mars 2026) est environ 5x plus rapide que V7 avec un mode HD natif 2K et un meilleur rendu de texte. Flux 2 offre une qualité comparable ou supérieure en photoréalisme, avec l’avantage de l’exécution locale, de l’édition multi-référence native, et du coût nul (klein 4B). Midjourney excelle dans la qualité artistique « out of the box » et la personnalisation via srefs et moodboards. Choisissez Flux pour le contrôle et le coût, Midjourney pour la facilité et la direction artistique sans effort.

Flux gère-t-il le texte dans les images ?

Oui, nettement mieux que SDXL et SD 3.5. Flux 2 rend du texte lisible et correctement orthographié dans la plupart des cas. Il reste cependant en dessous de Ideogram 3.0 (qui atteint ~90-95 % de précision sur le texte) et de GPT Image 1.5 d’OpenAI pour les cas d’usage exigeant une typographie parfaite.