DALL-E : la famille de modèles de génération d’images d’OpenAI, de la révolution à la succession
L’histoire de DALL-E : trois générations
DALL-E 1 (janvier 2021) : la preuve de concept
DALL-E 1 a été révélé par OpenAI en janvier 2021 comme une démonstration de recherche. Basé sur une version modifiée de GPT-3 avec 12 milliards de paramètres, il utilisait un Transformer autoregressif pour générer des images à partir de texte. Le modèle traitait le texte et l’image comme une séquence unique de tokens (256 tokens texte + 1024 tokens image via un VAE discret).
DALL-E 1 n’a jamais été accessible au grand public. Il a servi de preuve de concept démontrant qu’un LLM suffisamment large pouvait comprendre et générer des compositions visuelles complexes à partir de descriptions en langage naturel. Les résultats étaient impressionnants pour l’époque mais flous et à basse résolution comparés aux standards actuels.
DALL-E 2 (avril 2022) : la diffusion entre en jeu
DALL-E 2 a marqué un changement d’architecture radical. Au lieu de l’approche autorégressive de DALL-E 1, il utilise un modèle de diffusion guidé par les embeddings CLIP. Le pipeline fonctionne en deux étapes : un « prior » qui traduit les embeddings texte CLIP en embeddings image CLIP, puis un décodeur de diffusion (unCLIP) qui génère l’image à partir de ces embeddings image.
DALL-E 2 a introduit des fonctionnalités qui sont devenues standard : l’inpainting (édition de zones spécifiques), l’outpainting (extension des bordures), et la génération de variations d’une image existante. Il a été ouvert au public via une API et une interface web, faisant de lui l’un des premiers modèles de génération d’images accessibles au grand public.
Ses limitations étaient déjà connues : difficulté à rendre du texte lisible dans les images, problèmes d’anatomie humaine (mains déformées), et une tendance à produire des compositions parfois incohérentes sur des prompts complexes.
DALL-E 3 (octobre 2023) : l’intégration ChatGPT
DALL-E 3 a représenté un saut majeur en qualité et surtout en facilité d’utilisation. Son innovation principale : l’intégration directe dans ChatGPT. Au lieu de devoir écrire des prompts techniques, vous décriviez votre image en langage naturel dans une conversation, et ChatGPT (GPT-4) réécrivait automatiquement votre description en un prompt optimisé pour DALL-E 3.
Cette réécriture automatique des prompts via GPT-4 a éliminé une grande partie de la courbe d’apprentissage du prompt engineering pour la génération d’images. Les utilisateurs pouvaient itérer sur leurs images en discutant naturellement : « rends le ciel plus orange », « ajoute un chat sur le toit », « change le style en aquarelle ».
DALL-E 3 a aussi amélioré significativement la fidélité au prompt, le rendu de texte dans les images (meilleur que DALL-E 2, mais encore imparfait), et les détails des mains et visages. Côté sécurité, OpenAI a intégré des filtres pour refuser les demandes de style d’artistes vivants et les images de personnalités publiques nommément identifiées.
La fin de DALL-E 3 et la transition vers GPT Image
C’est l’information clé à retenir en 2026 : DALL-E 3 est en cours de dépréciation.
Décembre 2025 : DALL-E 3 a été retiré de ChatGPT sans avertissement préalable, remplacé par la génération d’images native de GPT-4o. Les utilisateurs accédant à ChatGPT Plus utilisent désormais GPT Image 1.5 automatiquement.
Novembre 2025 : OpenAI a notifié les développeurs utilisant les snapshots de l’API DALL-E 3 de leur dépréciation et retrait de l’API prévu pour le 12 mai 2026.
GPT Image 1.5 : le successeur officiel de DALL-E 3. Contrairement à DALL-E 3 qui était un modèle séparé appelé par ChatGPT, GPT Image 1.5 est intégré nativement dans l’architecture GPT. Il offre une meilleure édition locale, une génération plus rapide, une meilleure cohérence visuelle, et des capacités d’édition que DALL-E 3 ne pouvait pas atteindre (modification précise d’arrière-plans, ajustement d’éclairage, correction d’erreurs sans affecter le reste de l’image).
GPT Image 1.5 : le successeur
GPT Image 1.5 est fondamentalement différent de DALL-E 3 dans son architecture. Au lieu d’être un modèle de diffusion séparé appelé par un LLM, c’est un système unifié où la compréhension du texte et la génération d’images sont intégrées dans le même modèle. Cela apporte plusieurs avantages :
Compréhension contextuelle : GPT Image 1.5 comprend le contexte de la conversation. Si vous avez discuté d’un projet pendant 20 messages, puis demandez « fais-moi un visuel pour ça », le modèle sait exactement à quoi « ça » fait référence.
Édition précise : contrairement à DALL-E 3 qui ne pouvait que régénérer une image entière, GPT Image 1.5 permet des modifications locales : changer un arrière-plan, ajuster l’éclairage, corriger un détail, tout en préservant le reste de l’image.
Meilleur rendu de texte : la typographie dans les images est nettement améliorée, bien que les modèles spécialisés comme Ideogram 3.0 restent supérieurs pour les cas d’usage exigeant une précision typographique absolue.
Approche RLHF : OpenAI a recruté plus d’une centaine d’annotateurs humains pour évaluer et corriger les images générées, en signalant les erreurs d’anatomie (doigts, proportions faciales), les incohérences spatiales et les problèmes de réalisme. Ce processus de Reinforcement Learning from Human Feedback (RLHF) appliqué à la génération d’images est une première à cette échelle.
Comment accéder à DALL-E / GPT Image en 2026
| Méthode | Modèle disponible | Coût | Limites |
|---|---|---|---|
| ChatGPT Plus | GPT Image 1.5 | $20/mois | Générations incluses, quotas journaliers |
| ChatGPT Pro | GPT Image 1.5 (prioritaire) | $200/mois | Quotas élevés, accès prioritaire |
| API GPT Image 1.5 | GPT Image 1.5 | Facturation par token | Intégration programmatique |
| API DALL-E 3 (legacy) | DALL-E 3 | ~$0.04-0.08 par image | Dépréciation le 12 mai 2026 |
| ChatGPT Free | GPT-4o (limité) | Gratuit (avec publicité) | Génération d’images limitée |
Depuis le 9 février 2026, ChatGPT Free affiche de la publicité (CPM d’environ $60, budget minimum $200K pour les annonceurs). Le plan Go à $8/mois inclut aussi la publicité. Seuls les plans Plus ($20/mois) et supérieurs sont sans publicité avec accès complet à la génération d’images.
Le fonctionnement technique de DALL-E en résumé
Bien que GPT Image 1.5 ait remplacé DALL-E 3 dans ChatGPT, comprendre les principes de DALL-E aide à saisir l’évolution de la génération d’images :
DALL-E 1 utilisait un Transformer autoregressif : il prédisait les tokens image un par un, comme un LLM prédit les mots. Lent mais conceptuellement élégant.
DALL-E 2 est passé à un modèle de diffusion guidé par CLIP : génération parallèle (toute l’image en même temps), plus rapide et de meilleure qualité. L’approche « unCLIP » inverse le processus d’encodage CLIP pour transformer des embeddings texte en images.
DALL-E 3 a ajouté un captionneur d’images entraîné en interne : au lieu d’utiliser les légendes internet (souvent imprécises), OpenAI a généré de meilleures descriptions textuelles pour ses images d’entraînement, améliorant considérablement la fidélité prompt-image.
GPT Image 1.5 unifie la compréhension textuelle et la génération visuelle dans un seul modèle multimodal. C’est un changement de paradigme : au lieu de « un LLM qui appelle un générateur d’images », c’est « un modèle qui comprend et produit texte et images nativement ».
L’impact culturel de DALL-E
DALL-E a joué un rôle fondateur dans la démocratisation de la génération d’images par IA. Avant DALL-E 2 (2022), la génération d’images par IA était cantonnée aux laboratoires de recherche et aux GANs spécialisés. DALL-E 2 et Stable Diffusion (sorti quelques mois après) ont rendu cette technologie accessible à tous.
L’intégration de DALL-E 3 dans ChatGPT en octobre 2023 a été un moment charnière : pour la première fois, des centaines de millions d’utilisateurs pouvaient générer des images par IA sans aucune connaissance technique, simplement en discutant. Cela a déclenché des phénomènes viraux (les images « Ghibli-style » générées via ChatGPT en mars-avril 2025) et des débats intenses sur le droit d’auteur, l’éthique et l’impact sur les métiers créatifs.
Les questions juridiques restent ouvertes : OpenAI affirme que les données d’entraînement de GPT Image proviennent principalement de « données publiquement disponibles » et de matériaux sous licence (partenariat avec Shutterstock). Un mécanisme d’opt-out permet aux créateurs de retirer leurs œuvres des données d’entraînement, et les webmasters peuvent utiliser robots.txt pour empêcher le crawling.
DALL-E / GPT Image vs les alternatives en 2026
| Critère | GPT Image 1.5 (OpenAI) | Midjourney V7/V8 | Flux 2 | Stable Diffusion | Ideogram 3.0 |
|---|---|---|---|---|---|
| Qualité photo | ★★★★ | ★★★★★ | ★★★★★ | ★★★★ (avec fine-tunes) | ★★★★ |
| Rendu texte | ★★★★ | ★★★ | ★★★★ | ★★ | ★★★★★ |
| Édition d’image | ★★★★★ | ★★★ | ★★★★ (multi-ref natif) | ★★★★ (inpainting/outpainting) | ★★★ (Canvas) |
| Facilité | ★★★★★ (conversation) | ★★★★★ | ★★★ (technique) | ★★★ (setup requis) | ★★★★★ |
| Contrôle | ★★★ | ★★★★ (params, srefs) | ★★★★★ (open-weight) | ★★★★★ (LoRA, ControlNet) | ★★★ |
| Coût | $20/mois (ChatGPT Plus) | Dès $10/mois | $0 (local klein 4B) | $0 (local) | Free tier + dès ~$8/mois |
| Open source | ❌ | ❌ | ✅ (partiellement) | ✅ | ❌ |
Sécurité et filtres de contenu
OpenAI applique des mesures de sécurité strictes sur DALL-E et GPT Image :
Refus des styles d’artistes vivants : le modèle est conçu pour décliner les demandes qui demandent explicitement le style d’un artiste vivant nommément identifié.
Limitation sur les personnalités publiques : les images de personnes réelles identifiables sont restreintes, avec des garde-fous pour éviter les deepfakes et les usages malveillants.
Provenance : OpenAI développe un classificateur de provenance capable de détecter si une image a été générée par DALL-E/GPT Image avec une précision supérieure à 99 % (en test interne) sur les images non modifiées, et supérieure à 95 % après crop, resize ou compression JPEG.
Opt-out : les créateurs peuvent demander le retrait de leurs œuvres des données d’entraînement via un formulaire dédié. Les webmasters peuvent utiliser robots.txt pour bloquer le crawling d’images par OpenAI.
Migration API : de DALL-E 3 à GPT Image
Pour les développeurs, la migration est relativement simple. Les principaux changements :
L’endpoint change de /v1/images/generations (DALL-E 3) vers l’endpoint Responses API avec le type d’outil image_generation. La facturation passe d’un modèle par image (taille fixe) à une facturation par token (incluant les tokens de raisonnement du modèle).
Les fonctionnalités d’édition sont nettement enrichies : GPT Image 1.5 supporte l’édition locale (inpainting conversationnel), la variation contrôlée, et la génération multi-turn (itérer sur une image au fil d’une conversation API).
Les garde-fous de sécurité sont plus stricts : certains prompts acceptés par DALL-E 3 peuvent être refusés par GPT Image 1.5, qui applique les politiques de sécurité de GPT-5.4.
Questions fréquentes sur DALL-E
DALL-E est-il encore disponible en 2026 ?
DALL-E 3 a été retiré de ChatGPT en décembre 2025 et remplacé par GPT Image 1.5. L’API DALL-E 3 reste fonctionnelle mais sera définitivement retirée le 12 mai 2026. Pour les nouveaux projets, utilisez directement GPT Image 1 ou GPT Image 1.5 via l’API Responses ou ChatGPT Plus.
DALL-E est-il gratuit ?
La génération d’images dans ChatGPT Free est très limitée (quotas bas, GPT-4o de base). Pour un accès complet à GPT Image 1.5, il faut ChatGPT Plus ($20/mois) ou Pro ($200/mois). Via l’API, la facturation est au token. Il n’existe pas de plan gratuit illimité pour la génération d’images chez OpenAI.
Quelle est la différence entre DALL-E 3 et GPT Image 1.5 ?
DALL-E 3 était un modèle de diffusion séparé appelé par ChatGPT. GPT Image 1.5 est intégré nativement dans le modèle GPT : il comprend le contexte conversationnel, permet l’édition locale précise, génère plus vite, et offre un meilleur rendu de texte. C’est une évolution architecturale fondamentale, pas juste une mise à jour incrémentale.
Les images DALL-E sont-elles libres de droits ?
Oui, selon les conditions d’OpenAI : les images générées vous appartiennent et peuvent être utilisées commercialement (impression, vente, merchandising) sans autorisation supplémentaire. Cependant, le statut juridique du copyright sur les images générées par IA reste incertain dans de nombreuses juridictions. En France et en Europe, l’AI Act impose des obligations de transparence sur les contenus générés par IA.
DALL-E ou Midjourney ?
GPT Image 1.5 (successeur de DALL-E 3) excelle dans l’intégration conversationnelle, l’édition contextuelle et la facilité d’utilisation. Midjourney (V7 en production, V8 Alpha depuis le 17 mars 2026) offre une qualité artistique et un photoréalisme supérieurs, avec plus de contrôle sur le style via les paramètres, les style references et les moodboards. Si vous êtes déjà dans l’écosystème ChatGPT et voulez des images « bonnes » rapidement, GPT Image. Si la qualité visuelle est votre priorité absolue, Midjourney.