DALL-E : la famille de modèles de génération d’images d’OpenAI, de la révolution à la succession

Définition rapide DALL-E est une famille de modèles d’intelligence artificielle développée par OpenAI, capable de générer des images à partir de descriptions textuelles (text-to-image). Le nom est un clin d’œil à Salvador Dalí et au robot WALL-E de Pixar. Lancée en janvier 2021 avec DALL-E 1, la famille a évolué à travers DALL-E 2 (avril 2022) et DALL-E 3 (octobre 2023), avant d’être progressivement remplacée par GPT Image 1.5, le nouveau modèle de génération d’images intégré nativement à GPT-4o puis GPT-5.4.

L’histoire de DALL-E : trois générations

DALL-E 1 (janvier 2021) : la preuve de concept

DALL-E 1 a été révélé par OpenAI en janvier 2021 comme une démonstration de recherche. Basé sur une version modifiée de GPT-3 avec 12 milliards de paramètres, il utilisait un Transformer autoregressif pour générer des images à partir de texte. Le modèle traitait le texte et l’image comme une séquence unique de tokens (256 tokens texte + 1024 tokens image via un VAE discret).

DALL-E 1 n’a jamais été accessible au grand public. Il a servi de preuve de concept démontrant qu’un LLM suffisamment large pouvait comprendre et générer des compositions visuelles complexes à partir de descriptions en langage naturel. Les résultats étaient impressionnants pour l’époque mais flous et à basse résolution comparés aux standards actuels.

DALL-E 2 (avril 2022) : la diffusion entre en jeu

DALL-E 2 a marqué un changement d’architecture radical. Au lieu de l’approche autorégressive de DALL-E 1, il utilise un modèle de diffusion guidé par les embeddings CLIP. Le pipeline fonctionne en deux étapes : un « prior » qui traduit les embeddings texte CLIP en embeddings image CLIP, puis un décodeur de diffusion (unCLIP) qui génère l’image à partir de ces embeddings image.

DALL-E 2 a introduit des fonctionnalités qui sont devenues standard : l’inpainting (édition de zones spécifiques), l’outpainting (extension des bordures), et la génération de variations d’une image existante. Il a été ouvert au public via une API et une interface web, faisant de lui l’un des premiers modèles de génération d’images accessibles au grand public.

Ses limitations étaient déjà connues : difficulté à rendre du texte lisible dans les images, problèmes d’anatomie humaine (mains déformées), et une tendance à produire des compositions parfois incohérentes sur des prompts complexes.

DALL-E 3 (octobre 2023) : l’intégration ChatGPT

DALL-E 3 a représenté un saut majeur en qualité et surtout en facilité d’utilisation. Son innovation principale : l’intégration directe dans ChatGPT. Au lieu de devoir écrire des prompts techniques, vous décriviez votre image en langage naturel dans une conversation, et ChatGPT (GPT-4) réécrivait automatiquement votre description en un prompt optimisé pour DALL-E 3.

Cette réécriture automatique des prompts via GPT-4 a éliminé une grande partie de la courbe d’apprentissage du prompt engineering pour la génération d’images. Les utilisateurs pouvaient itérer sur leurs images en discutant naturellement : « rends le ciel plus orange », « ajoute un chat sur le toit », « change le style en aquarelle ».

DALL-E 3 a aussi amélioré significativement la fidélité au prompt, le rendu de texte dans les images (meilleur que DALL-E 2, mais encore imparfait), et les détails des mains et visages. Côté sécurité, OpenAI a intégré des filtres pour refuser les demandes de style d’artistes vivants et les images de personnalités publiques nommément identifiées.

La fin de DALL-E 3 et la transition vers GPT Image

C’est l’information clé à retenir en 2026 : DALL-E 3 est en cours de dépréciation.

Décembre 2025 : DALL-E 3 a été retiré de ChatGPT sans avertissement préalable, remplacé par la génération d’images native de GPT-4o. Les utilisateurs accédant à ChatGPT Plus utilisent désormais GPT Image 1.5 automatiquement.

Novembre 2025 : OpenAI a notifié les développeurs utilisant les snapshots de l’API DALL-E 3 de leur dépréciation et retrait de l’API prévu pour le 12 mai 2026.

GPT Image 1.5 : le successeur officiel de DALL-E 3. Contrairement à DALL-E 3 qui était un modèle séparé appelé par ChatGPT, GPT Image 1.5 est intégré nativement dans l’architecture GPT. Il offre une meilleure édition locale, une génération plus rapide, une meilleure cohérence visuelle, et des capacités d’édition que DALL-E 3 ne pouvait pas atteindre (modification précise d’arrière-plans, ajustement d’éclairage, correction d’erreurs sans affecter le reste de l’image).

Échéance pour les développeurs Si vous utilisez l’API DALL-E 3 dans vos applications, vous avez jusqu’au 12 mai 2026 pour migrer vers GPT Image 1 ou GPT Image 1.5. OpenAI fournit des guides de migration et une rétrocompatibilité pour la plupart des cas d’usage. Les custom GPTs utilisant DALL-E 3 comme outil continueront de fonctionner mais basculeront automatiquement sur le nouveau modèle.

GPT Image 1.5 : le successeur

GPT Image 1.5 est fondamentalement différent de DALL-E 3 dans son architecture. Au lieu d’être un modèle de diffusion séparé appelé par un LLM, c’est un système unifié où la compréhension du texte et la génération d’images sont intégrées dans le même modèle. Cela apporte plusieurs avantages :

Compréhension contextuelle : GPT Image 1.5 comprend le contexte de la conversation. Si vous avez discuté d’un projet pendant 20 messages, puis demandez « fais-moi un visuel pour ça », le modèle sait exactement à quoi « ça » fait référence.

Édition précise : contrairement à DALL-E 3 qui ne pouvait que régénérer une image entière, GPT Image 1.5 permet des modifications locales : changer un arrière-plan, ajuster l’éclairage, corriger un détail, tout en préservant le reste de l’image.

Meilleur rendu de texte : la typographie dans les images est nettement améliorée, bien que les modèles spécialisés comme Ideogram 3.0 restent supérieurs pour les cas d’usage exigeant une précision typographique absolue.

Approche RLHF : OpenAI a recruté plus d’une centaine d’annotateurs humains pour évaluer et corriger les images générées, en signalant les erreurs d’anatomie (doigts, proportions faciales), les incohérences spatiales et les problèmes de réalisme. Ce processus de Reinforcement Learning from Human Feedback (RLHF) appliqué à la génération d’images est une première à cette échelle.

Comment accéder à DALL-E / GPT Image en 2026

Méthode	Modèle disponible	Coût	Limites
ChatGPT Plus	GPT Image 1.5	$20/mois	Générations incluses, quotas journaliers
ChatGPT Pro	GPT Image 1.5 (prioritaire)	$200/mois	Quotas élevés, accès prioritaire
API GPT Image 1.5	GPT Image 1.5	Facturation par token	Intégration programmatique
API DALL-E 3 (legacy)	DALL-E 3	~$0.04-0.08 par image	Dépréciation le 12 mai 2026
ChatGPT Free	GPT-4o (limité)	Gratuit (avec publicité)	Génération d’images limitée

Depuis le 9 février 2026, ChatGPT Free affiche de la publicité (CPM d’environ $60, budget minimum $200K pour les annonceurs). Le plan Go à $8/mois inclut aussi la publicité. Seuls les plans Plus ($20/mois) et supérieurs sont sans publicité avec accès complet à la génération d’images.

Le fonctionnement technique de DALL-E en résumé

Bien que GPT Image 1.5 ait remplacé DALL-E 3 dans ChatGPT, comprendre les principes de DALL-E aide à saisir l’évolution de la génération d’images :

DALL-E 1 utilisait un Transformer autoregressif : il prédisait les tokens image un par un, comme un LLM prédit les mots. Lent mais conceptuellement élégant.

DALL-E 2 est passé à un modèle de diffusion guidé par CLIP : génération parallèle (toute l’image en même temps), plus rapide et de meilleure qualité. L’approche « unCLIP » inverse le processus d’encodage CLIP pour transformer des embeddings texte en images.

DALL-E 3 a ajouté un captionneur d’images entraîné en interne : au lieu d’utiliser les légendes internet (souvent imprécises), OpenAI a généré de meilleures descriptions textuelles pour ses images d’entraînement, améliorant considérablement la fidélité prompt-image.

GPT Image 1.5 unifie la compréhension textuelle et la génération visuelle dans un seul modèle multimodal. C’est un changement de paradigme : au lieu de « un LLM qui appelle un générateur d’images », c’est « un modèle qui comprend et produit texte et images nativement ».

L’impact culturel de DALL-E

DALL-E a joué un rôle fondateur dans la démocratisation de la génération d’images par IA. Avant DALL-E 2 (2022), la génération d’images par IA était cantonnée aux laboratoires de recherche et aux GANs spécialisés. DALL-E 2 et Stable Diffusion (sorti quelques mois après) ont rendu cette technologie accessible à tous.

L’intégration de DALL-E 3 dans ChatGPT en octobre 2023 a été un moment charnière : pour la première fois, des centaines de millions d’utilisateurs pouvaient générer des images par IA sans aucune connaissance technique, simplement en discutant. Cela a déclenché des phénomènes viraux (les images « Ghibli-style » générées via ChatGPT en mars-avril 2025) et des débats intenses sur le droit d’auteur, l’éthique et l’impact sur les métiers créatifs.

Les questions juridiques restent ouvertes : OpenAI affirme que les données d’entraînement de GPT Image proviennent principalement de « données publiquement disponibles » et de matériaux sous licence (partenariat avec Shutterstock). Un mécanisme d’opt-out permet aux créateurs de retirer leurs œuvres des données d’entraînement, et les webmasters peuvent utiliser robots.txt pour empêcher le crawling.

DALL-E / GPT Image vs les alternatives en 2026

Critère	GPT Image 1.5 (OpenAI)	Midjourney V7/V8	Flux 2	Stable Diffusion	Ideogram 3.0
Qualité photo	★★★★	★★★★★	★★★★★	★★★★ (avec fine-tunes)	★★★★
Rendu texte	★★★★	★★★	★★★★	★★	★★★★★
Édition d’image	★★★★★	★★★	★★★★ (multi-ref natif)	★★★★ (inpainting/outpainting)	★★★ (Canvas)
Facilité	★★★★★ (conversation)	★★★★★	★★★ (technique)	★★★ (setup requis)	★★★★★
Contrôle	★★★	★★★★ (params, srefs)	★★★★★ (open-weight)	★★★★★ (LoRA, ControlNet)	★★★
Coût	$20/mois (ChatGPT Plus)	Dès $10/mois	$0 (local klein 4B)	$0 (local)	Free tier + dès ~$8/mois
Open source	❌	❌	✅ (partiellement)	✅	❌

Verdict Polydesk GPT Image 1.5 (le successeur de DALL-E 3) est le meilleur choix pour les utilisateurs déjà abonnés à ChatGPT Plus qui veulent générer des images rapidement sans quitter leur conversation. L’édition contextuelle et la compréhension conversationnelle sont inégalées. Cependant, pour la qualité artistique pure, Midjourney reste supérieur. Pour le contrôle total et le coût nul, Stable Diffusion ou Flux 2. Pour le texte dans les images, Ideogram 3.0. DALL-E/GPT Image est un excellent généraliste intégré à un écosystème conversationnel, pas un spécialiste de la génération d’images.

Sécurité et filtres de contenu

OpenAI applique des mesures de sécurité strictes sur DALL-E et GPT Image :

Refus des styles d’artistes vivants : le modèle est conçu pour décliner les demandes qui demandent explicitement le style d’un artiste vivant nommément identifié.

Limitation sur les personnalités publiques : les images de personnes réelles identifiables sont restreintes, avec des garde-fous pour éviter les deepfakes et les usages malveillants.

Provenance : OpenAI développe un classificateur de provenance capable de détecter si une image a été générée par DALL-E/GPT Image avec une précision supérieure à 99 % (en test interne) sur les images non modifiées, et supérieure à 95 % après crop, resize ou compression JPEG.

Opt-out : les créateurs peuvent demander le retrait de leurs œuvres des données d’entraînement via un formulaire dédié. Les webmasters peuvent utiliser robots.txt pour bloquer le crawling d’images par OpenAI.

Migration API : de DALL-E 3 à GPT Image

Pour les développeurs, la migration est relativement simple. Les principaux changements :

L’endpoint change de /v1/images/generations (DALL-E 3) vers l’endpoint Responses API avec le type d’outil image_generation. La facturation passe d’un modèle par image (taille fixe) à une facturation par token (incluant les tokens de raisonnement du modèle).

Les fonctionnalités d’édition sont nettement enrichies : GPT Image 1.5 supporte l’édition locale (inpainting conversationnel), la variation contrôlée, et la génération multi-turn (itérer sur une image au fil d’une conversation API).

Les garde-fous de sécurité sont plus stricts : certains prompts acceptés par DALL-E 3 peuvent être refusés par GPT Image 1.5, qui applique les politiques de sécurité de GPT-5.4.

Questions fréquentes sur DALL-E

DALL-E est-il encore disponible en 2026 ?

DALL-E 3 a été retiré de ChatGPT en décembre 2025 et remplacé par GPT Image 1.5. L’API DALL-E 3 reste fonctionnelle mais sera définitivement retirée le 12 mai 2026. Pour les nouveaux projets, utilisez directement GPT Image 1 ou GPT Image 1.5 via l’API Responses ou ChatGPT Plus.

DALL-E est-il gratuit ?

La génération d’images dans ChatGPT Free est très limitée (quotas bas, GPT-4o de base). Pour un accès complet à GPT Image 1.5, il faut ChatGPT Plus ($20/mois) ou Pro ($200/mois). Via l’API, la facturation est au token. Il n’existe pas de plan gratuit illimité pour la génération d’images chez OpenAI.

Quelle est la différence entre DALL-E 3 et GPT Image 1.5 ?

DALL-E 3 était un modèle de diffusion séparé appelé par ChatGPT. GPT Image 1.5 est intégré nativement dans le modèle GPT : il comprend le contexte conversationnel, permet l’édition locale précise, génère plus vite, et offre un meilleur rendu de texte. C’est une évolution architecturale fondamentale, pas juste une mise à jour incrémentale.

Les images DALL-E sont-elles libres de droits ?

Oui, selon les conditions d’OpenAI : les images générées vous appartiennent et peuvent être utilisées commercialement (impression, vente, merchandising) sans autorisation supplémentaire. Cependant, le statut juridique du copyright sur les images générées par IA reste incertain dans de nombreuses juridictions. En France et en Europe, l’AI Act impose des obligations de transparence sur les contenus générés par IA.

DALL-E ou Midjourney ?

GPT Image 1.5 (successeur de DALL-E 3) excelle dans l’intégration conversationnelle, l’édition contextuelle et la facilité d’utilisation. Midjourney (V7 en production, V8 Alpha depuis le 17 mars 2026) offre une qualité artistique et un photoréalisme supérieurs, avec plus de contrôle sur le style via les paramètres, les style references et les moodboards. Si vous êtes déjà dans l’écosystème ChatGPT et voulez des images « bonnes » rapidement, GPT Image. Si la qualité visuelle est votre priorité absolue, Midjourney.