DALL-E 3 : le générateur d’images d’OpenAI intégré à ChatGPT, et pourquoi il disparaît
Comment fonctionnait DALL-E 3
DALL-E 3 se distinguait des autres générateurs d’images par son intégration conversationnelle avec ChatGPT. Le pipeline fonctionnait en deux temps :
Étape 1 : réécriture du prompt par GPT-4. Quand vous décriviez une image dans ChatGPT (« fais-moi un chat qui lit un livre dans une bibliothèque »), GPT-4 transformait cette description en un prompt technique détaillé et optimisé pour le modèle de diffusion. Cette réécriture automatique ajoutait des précisions sur le style, l’éclairage, la composition et les détails que vous n’aviez pas spécifiés, améliorant considérablement la qualité du résultat.
Étape 2 : génération par le modèle de diffusion. Le prompt réécrit était envoyé au modèle de diffusion DALL-E 3 proprement dit, qui générait l’image. Ce modèle de diffusion avait été entraîné avec un captionneur d’images interne (et non les légendes internet souvent imprécises), ce qui améliorait significativement la fidélité entre le prompt et l’image produite.
L’itération conversationnelle était le vrai avantage : vous pouviez demander des modifications en langage naturel (« rends le ciel plus orange », « ajoute un chat sur le toit », « change le style en aquarelle ») et ChatGPT ajustait le prompt puis relançait la génération. Aucun autre service ne proposait cette fluidité à l’époque du lancement.
Les capacités techniques de DALL-E 3
Résolutions et formats
DALL-E 3 supportait trois résolutions via l’API :
| Résolution | Ratio | Usage typique | Coût API (standard) |
|---|---|---|---|
| 1024×1024 | 1:1 | Posts réseaux sociaux, avatars | ~$0.04 |
| 1024×1792 | 9:16 | Stories, affiches verticales | ~$0.08 |
| 1792×1024 | 16:9 | Bannières, images paysage | ~$0.08 |
Dans ChatGPT, DALL-E 3 générait par défaut en 1024×1024, avec la possibilité de demander un format portrait ou paysage dans la conversation.
Forces de DALL-E 3
Fidélité au prompt : grâce à la réécriture par GPT-4 et à l’entraînement sur des captions de haute qualité, DALL-E 3 était remarquablement fidèle aux descriptions complexes et multi-éléments. Les compositions avec plusieurs objets, des relations spatiales précises et des attributs distincts étaient bien mieux gérées que par DALL-E 2 ou les modèles Stable Diffusion de l’époque.
Facilité d’utilisation : aucune connaissance technique requise. Vous décriviez votre image en français (ou toute autre langue), ChatGPT faisait le reste. La barrière d’entrée était proche de zéro.
Rendu de texte : DALL-E 3 rendait du texte dans les images de manière plus lisible que DALL-E 2 et que la plupart des modèles de diffusion contemporains. Pas parfait, mais fonctionnel pour des titres courts et des enseignes.
Détails et cohérence : les mains, visages et petits détails étaient nettement améliorés par rapport à DALL-E 2. Les images étaient plus nettes, avec des textures plus réalistes et une meilleure gestion de la profondeur de champ.
Limites connues de DALL-E 3
Pas d’édition locale : contrairement à DALL-E 2 (qui offrait l’inpainting), DALL-E 3 dans ChatGPT ne permettait pas de modifier une zone spécifique d’une image. Chaque demande de modification régénérait l’image entière, ce qui rendait difficile l’itération fine sur un détail précis.
Pas de contrôle granulaire : aucun paramètre exposé (pas de CFG scale, pas de seed, pas de sampler, pas de negative prompt). Tout passait par le langage naturel, ce qui était un avantage pour les débutants mais frustrant pour les utilisateurs avancés habitués au contrôle fin de Stable Diffusion ou Midjourney.
Filtres de sécurité stricts : DALL-E 3 refusait de générer des images dans le style d’artistes vivants nommés, des personnalités publiques identifiables, et tout contenu jugé sensible par les filtres d’OpenAI. Ces restrictions, plus sévères que celles de Midjourney ou Stable Diffusion, limitaient certains cas d’usage créatifs légitimes.
Rendu de texte imparfait : bien qu’amélioré par rapport à DALL-E 2, le rendu de texte dans les images restait inférieur à ce que proposent Ideogram (dès sa v1) et plus récemment GPT Image 1.5 ou Flux 2.
Qualité artistique : face à Midjourney V5/V6 (disponibles à la même époque), DALL-E 3 produisait des images de bonne qualité mais moins « polies » artistiquement. Les textures, l’éclairage et la composition de Midjourney étaient généralement supérieurs pour les rendus créatifs et photoréalistes.
La dépréciation de DALL-E 3 : chronologie complète
La fin de DALL-E 3 s’est déroulée en plusieurs étapes :
Mars 2025 : OpenAI lance la génération d’images native via GPT-4o, qui commence à coexister avec DALL-E 3 dans ChatGPT. Le phénomène viral des images « style Studio Ghibli » marque le début de la transition.
Mi-2025 : la part de marché de DALL-E 3 chute d’environ 80 % entre mi-2024 et début 2025, selon les analyses du marché. Flux de Black Forest Labs capture environ 40 % des messages de génération d’images, Imagen 3 de Google environ 30 %.
14 novembre 2025 : OpenAI notifie officiellement les développeurs de la dépréciation des snapshots DALL-E 3 dans l’API, avec un retrait prévu le 12 mai 2026.
Décembre 2025 : DALL-E 3 est retiré de ChatGPT sans avertissement préalable. Les utilisateurs sont automatiquement basculés sur GPT Image 1.5. Certains utilisateurs ont contourné le changement via des custom GPTs comme « 4o ImageGen », mais ces workarounds ne survivront pas à la dépréciation API complète.
12 mai 2026 (à venir) : retrait définitif de l’API DALL-E 3. Les développeurs doivent migrer vers GPT Image 1 ou GPT Image 1.5.
GPT Image 1.5 : ce qui remplace DALL-E 3
GPT Image 1.5 est le successeur officiel. Les différences fondamentales :
Architecture unifiée : là où DALL-E 3 était un modèle séparé appelé par ChatGPT, GPT Image 1.5 est intégré nativement dans l’architecture GPT. Le modèle comprend et produit texte et images dans le même réseau de neurones, ce qui améliore la cohérence contextuelle.
Édition locale : GPT Image 1.5 permet de modifier des zones spécifiques d’une image sans régénérer l’ensemble. Changez un arrière-plan, ajustez l’éclairage, corrigez un détail, tout en préservant le reste. C’est la fonctionnalité la plus demandée que DALL-E 3 ne pouvait pas offrir.
Génération plus rapide : les temps de génération sont réduits par rapport à DALL-E 3.
Meilleur rendu de texte : la typographie dans les images est nettement améliorée, bien qu’Ideogram 3.0 reste le spécialiste incontesté du texte dans les images.
Cohérence améliorée : les personnages et objets maintiennent une meilleure cohérence entre les générations successives dans une même conversation.
Guide de migration API : DALL-E 3 vers GPT Image
Pour les développeurs qui utilisent l’API DALL-E 3, voici les changements principaux :
Endpoint : l’ancien endpoint /v1/images/generations est remplacé par l’API Responses avec un outil de type image_generation. La syntaxe change significativement.
Facturation : le modèle passe d’une facturation par image à taille fixe (~$0.04-0.08 par image) à une facturation par token qui inclut les tokens de raisonnement du modèle. Le coût par image peut varier selon la complexité du prompt et les itérations.
Fonctionnalités enrichies : GPT Image 1.5 supporte l’édition locale (inpainting conversationnel), la variation contrôlée, et la génération multi-turn. Vous pouvez maintenir un contexte d’image sur plusieurs appels API consécutifs.
Garde-fous : les politiques de sécurité sont celles de GPT-5.4 (le modèle le plus récent d’OpenAI en mars 2026). Certains prompts acceptés par DALL-E 3 peuvent être refusés par GPT Image 1.5. Testez vos prompts existants avant la migration complète.
Rétrocompatibilité : OpenAI fournit des guides de migration et une rétrocompatibilité pour les cas d’usage standard (génération simple à partir d’un prompt texte). Les cas d’usage avancés (variation, édition) nécessitent une réécriture du code.
DALL-E 3 vs GPT Image 1.5 vs les alternatives
| Critère | DALL-E 3 (legacy) | GPT Image 1.5 | Midjourney V7/V8 | Flux 2 | Ideogram 3.0 |
|---|---|---|---|---|---|
| Statut | ⚠️ Déprécié (API jusqu’au 12/05/2026) | ✅ Actif | ✅ Actif | ✅ Actif | ✅ Actif |
| Édition locale | ❌ | ✅ | ✅ (inpaint, retexture) | ✅ (multi-ref natif) | ✅ (Canvas, Magic Fill) |
| Qualité photoréaliste | ★★★★ | ★★★★☆ | ★★★★★ | ★★★★★ | ★★★★ |
| Rendu texte | ★★★ | ★★★★ | ★★★ (V8 amélioré) | ★★★★ | ★★★★★ |
| Facilité d’utilisation | ★★★★★ | ★★★★★ | ★★★★★ | ★★★ | ★★★★★ |
| Contrôle | ★★ (pas de params) | ★★★ | ★★★★ (params, srefs) | ★★★★★ (open-weight) | ★★★ (styles, Canvas) |
| Coût | ~$0.04-0.08/image | Inclus ChatGPT Plus $20/mois | Dès $10/mois | $0 local (klein 4B) | Free tier + dès ~$8/mois |
L’impact de DALL-E 3 sur le marché
DALL-E 3 a joué un rôle crucial dans la démocratisation de la génération d’images par IA, même si sa domination a été de courte durée. En intégrant la génération d’images directement dans ChatGPT (utilisé par plusieurs centaines de millions de personnes), OpenAI a rendu cette technologie accessible au grand public sans aucune barrière technique.
L’impact sur le marché a été paradoxal : DALL-E 3 a fait découvrir la génération d’images à des millions d’utilisateurs, mais la majorité des utilisateurs professionnels et créatifs ont rapidement migré vers des outils plus spécialisés (Midjourney pour la qualité artistique, Stable Diffusion pour le contrôle, Ideogram pour le texte). La part de marché de DALL-E 3 a chuté d’environ 80 % en un an.
Le marché de la génération d’images s’est fragmenté : au lieu d’un acteur dominant, différents modèles excellent dans des niches spécifiques. Flux domine le photoréalisme open-weight, Ideogram le rendu de texte, Midjourney la qualité artistique, Adobe Firefly la sécurité juridique, et GPT Image 1.5 l’intégration conversationnelle.
Droits sur les images DALL-E 3
Selon les conditions d’utilisation d’OpenAI : les images générées par DALL-E 3 (et GPT Image 1.5) vous appartiennent. Vous pouvez les utiliser commercialement, les imprimer, les vendre ou les intégrer dans vos produits sans autorisation supplémentaire d’OpenAI.
Cependant, le statut juridique du droit d’auteur sur les images générées par IA reste incertain dans de nombreuses juridictions. Le Copyright Office américain a indiqué que les œuvres générées entièrement par IA sans intervention créative humaine ne sont pas éligibles au copyright. En Europe, l’AI Act impose des obligations de transparence : le contenu généré par IA doit être identifiable comme tel dans certains contextes.
OpenAI développe un classificateur de provenance capable de détecter si une image a été générée par leurs modèles, avec une précision annoncée de plus de 99 % sur les images non modifiées. Ce classificateur pourrait devenir un standard de l’industrie pour la traçabilité du contenu généré.
Sécurité et garde-fous
DALL-E 3 appliquait (et GPT Image 1.5 continue d’appliquer) des mesures de sécurité multicouches :
Filtrage des prompts : les prompts demandant du contenu violent, sexuel, haineux ou exploitant des mineurs sont rejetés avant la génération.
Refus des styles d’artistes vivants : le modèle est conçu pour décliner les demandes qui nomment explicitement un artiste vivant.
Personnalités publiques : les images de personnes réelles identifiables sont restreintes pour limiter les deepfakes et les usages malveillants.
Filtrage de sortie : les images générées sont analysées après génération pour détecter et bloquer les contenus problématiques qui auraient passé le filtrage de prompt.
Opt-out créateurs : les artistes et photographes peuvent demander à OpenAI de retirer leurs œuvres des données d’entraînement via un formulaire dédié. Les webmasters peuvent bloquer le crawling via robots.txt.
Questions fréquentes sur DALL-E 3
DALL-E 3 est-il encore disponible ?
Dans ChatGPT, non. Il a été remplacé par GPT Image 1.5 en décembre 2025. Via l’API, les snapshots DALL-E 3 restent fonctionnels jusqu’au 12 mai 2026. Après cette date, seuls GPT Image 1 et GPT Image 1.5 seront disponibles. Pour tout nouveau projet, utilisez directement GPT Image 1.5.
DALL-E 3 est-il gratuit ?
La génération d’images dans ChatGPT Free est très limitée. Pour un accès complet, il faut ChatGPT Plus ($20/mois) ou Pro ($200/mois). Via l’API legacy, DALL-E 3 coûte environ $0.04 par image en 1024×1024 et $0.08 en résolutions plus grandes. Il n’existe pas de plan gratuit illimité chez OpenAI pour la génération d’images.
DALL-E 3 ou Midjourney ?
Midjourney (V7 en production, V8 Alpha depuis le 17 mars 2026) offre une qualité artistique et un photoréalisme nettement supérieurs, avec plus de contrôle sur le style (paramètres –v, –ar, –style raw, style references, moodboards, personnalisation). GPT Image 1.5 (successeur de DALL-E 3) excelle dans l’intégration conversationnelle et l’édition contextuelle. Choisissez Midjourney si la qualité visuelle est votre priorité, GPT Image si vous voulez rester dans l’écosystème ChatGPT.
DALL-E 3 peut-il générer du texte lisible ?
DALL-E 3 rendait du texte de manière acceptable pour des titres courts et des enseignes simples, mais avec des erreurs fréquentes sur les mots longs ou les compositions typographiques complexes. Son successeur GPT Image 1.5 fait mieux, mais Ideogram 3.0 reste le leader incontesté du rendu de texte dans les images (~90-95 % de précision).
Les images DALL-E 3 sont-elles détectables comme IA ?
OpenAI a développé un classificateur interne capable d’identifier les images générées par DALL-E 3 / GPT Image avec une précision de plus de 99 % sur les images non modifiées, et plus de 95 % après modifications courantes (crop, resize, compression JPEG). Des métadonnées C2PA de provenance sont progressivement ajoutées aux images générées pour faciliter la traçabilité.