Polydesk-logotype
Polydesk.ai — Header

Sora Prompts : le guide complet pour maîtriser la génération vidéo IA d’OpenAI

Rédiger un prompt Sora, c’est briefer un directeur de la photographie qui n’a jamais vu votre storyboard : chaque détail omis sera improvisé par le modèle, et le résultat ne correspondra pas forcément à votre vision.

Sora 2, le modèle de génération vidéo d’OpenAI, produit des clips allant jusqu’à 20 secondes en 1080p avec audio synchronisé. Mais la qualité du résultat dépend directement de la précision de vos instructions. Ce guide vous donne la méthode complète pour écrire des prompts qui fonctionnent, du cas simple au plan cinématographique avancé, avec des exemples concrets et des templates réutilisables.

Sora Prompts — Fiche rapide
Modèle
Sora 2 (OpenAI)
Accès
ChatGPT Plus ($20/mois) et Pro ($200/mois)
Durée max
Jusqu’à 20 secondes par génération
Résolutions
480p, 720p, 1080p (selon le plan)
Formats
16:9 (paysage), 9:16 (portrait)
Audio
Dialogue, effets sonores et ambiance synchronisés
API
POST /v1/videos avec prompt texte + image optionnelle
Disponibilité
USA, Canada ; Europe via Sora 1 (web), Sora 2 non disponible officiellement en UE

Les principes fondamentaux d’un bon prompt Sora

Avant d’écrire votre premier prompt, comprenez une distinction essentielle : les paramètres techniques (résolution, durée, format) se définissent dans l’interface ou l’API, pas dans le texte du prompt. Écrire « make it longer » ou « en haute résolution » dans votre prompt n’a aucun effet. Le prompt contrôle tout le reste : sujet, mouvement, éclairage, style, ambiance, cadrage.

Penser comme un réalisateur

Le guide officiel d’OpenAI (mis à jour le 12 mars 2026) compare le prompt à un brief de tournage. Vous devez décrire ce que le spectateur voit, comment la caméra se comporte, et quelle atmosphère règne dans la scène. Plus vous êtes précis, plus Sora respecte votre intention. Mais attention : un prompt trop détaillé peut aussi produire des incohérences, car le modèle essaie de tout intégrer simultanément.

L’équilibre idéal dépend de votre objectif :

Approche Quand l’utiliser Résultat type
Prompt court (2-3 phrases) Exploration créative, recherche d’idées Variations surprenantes, liberté artistique du modèle
Prompt détaillé (5-10 phrases) Scène précise, cohérence visuelle Résultat contrôlé, fidèle au brief
Prompt cinématographique (paragraphe structuré) Production professionnelle, multi-shots Rendu « studio », continuité entre plans
Conseil pratique Traitez chaque prompt comme une « liste de souhaits créatifs », pas comme un contrat. Sora génère un résultat différent à chaque exécution avec le même prompt. C’est une fonctionnalité, pas un bug. Lancez 3-4 générations du même prompt pour sélectionner le meilleur résultat.

Anatomie d’un prompt Sora efficace

Un prompt Sora bien structuré couvre cinq dimensions, dans cet ordre de priorité :

1. Le style visuel : c’est la première information que Sora interprète. Précisez l’esthétique globale (documentaire années 90, cinéma 35mm, animation 3D, film noir, etc.). Ce choix influence automatiquement la colorimétrie, le grain, l’optique simulée et le rythme.

2. Le sujet et le décor : décrivez qui ou quoi est dans la scène et où ça se passe. Plus vous êtes spécifique sur l’apparence (âge, vêtements, expression), moins Sora improvise.

3. L’action : que se passe-t-il ? Décrivez le mouvement en « beats » temporels. Pour un clip de 10 secondes, deux à trois actions distinctes suffisent. Au-delà, le modèle perd en cohérence.

4. Le cadrage et la caméra : plan large, gros plan, travelling, panoramique, drone, steadicam. Les termes techniques du cinéma sont directement compris par Sora.

5. L’éclairage et la palette : golden hour, néons, clair-obscur, tons froids. Précisez 3 à 5 couleurs dominantes pour un rendu cohérent.


Exemples de prompts Sora par niveau

Niveau débutant : prompt minimaliste

Ce type de prompt laisse beaucoup de liberté à Sora. Idéal pour l’exploration :

A golden retriever runs through a field of sunflowers at sunset, slow motion.

Sora va interpréter librement l’angle de caméra, la profondeur de champ, les couleurs exactes du coucher de soleil, et le style général. Le résultat sera visuellement agréable mais imprévisible dans ses détails.

Niveau intermédiaire : prompt structuré

Ici, vous guidez Sora sur les choix visuels clés tout en lui laissant gérer les détails secondaires :

Cinematic wide shot of a narrow cobblestone street in old Lisbon at golden hour. A woman in her 30s wearing a cream linen dress walks toward the camera. Warm amber light filters through hanging laundry between pastel-colored buildings. Shallow depth of field, 50mm lens aesthetic. The camera slowly tracks backward as she approaches.

Ce prompt fixe le style (cinématique), le sujet (femme, 30 ans, robe lin crème), le décor (Lisbonne, ruelle pavée), l’éclairage (golden hour, ambre), le cadrage (plan large, 50mm, faible profondeur de champ) et le mouvement caméra (travelling arrière). Sora n’improvise que sur les détails tertiaires : couleur exacte des bâtiments, type de linge suspendu, expression du visage.

Niveau avancé : prompt cinématographique complet

Pour les productions professionnelles, structurez votre prompt comme un brief technique de tournage. Le guide officiel d’OpenAI recommande ce format pour reproduire des esthétiques cinématographiques précises (IMAX, 35mm argentique, documentaire 16mm) :

Format & Look Duration 4s; 180° shutter; digital capture emulating 65mm photochemical contrast; fine grain; subtle halation on speculars; no gate weave. Subject & Scene A lone astronaut in a weathered orange spacesuit stands at the edge of a vast crater on a barren planet. Red dust particles float in the thin atmosphere. Two moons hang low on the horizon. Camera Static wide establishing shot; 24mm equivalent; f/8 for deep focus across the entire plane. No camera movement. Lighting Key light from the double moons at camera-left, casting long parallel shadows. Fill from scattered ambient light off the red dust. Rim light on the astronaut’s helmet visor. Color palette Burnt sienna, deep charcoal, muted copper, cold blue-white on the moons.

Ce niveau de détail produit des résultats remarquablement fidèles au brief, mais exige une connaissance du vocabulaire cinématographique. Le modèle comprend les termes techniques comme « halation », « gate weave », « f/8 » ou « rim light ».

Vocabulaire cinématographique utile Les termes les mieux compris par Sora incluent : dolly (travelling), pan (panoramique), tilt (basculement), crane shot (grue), steadicam, handheld (caméra épaule), rack focus (transfert de mise au point), dutch angle (plan incliné), depth of field (profondeur de champ), golden hour, magic hour, key light, fill light, rim light, bokeh, lens flare, anamorphic.

Prompts image-to-video : partir d’une image de référence

L’une des fonctionnalités les plus puissantes de Sora est le mode image-to-video. Vous fournissez une image (photo, illustration, visuel généré par IA) comme point d’ancrage de la première frame, puis votre prompt textuel décrit ce qui se passe ensuite.

Comment utiliser les références visuelles

Via l’API, l’image se passe dans le paramètre input_reference de la requête POST /v1/videos. L’image doit correspondre exactement à la résolution cible de la vidéo. Formats supportés : JPEG, PNG, WebP.

Le modèle utilise l’image comme ancre pour la première frame. Votre prompt textuel contrôle ensuite le mouvement, l’action et l’évolution de la scène. C’est la combinaison idéale pour :

Maintenir une cohérence visuelle entre plusieurs clips (décor, personnage, palette). Animer un concept art ou un mood board. Créer des vidéos produit à partir de photos existantes. Tester une esthétique avant de générer une série complète.

[Image : photo studio d’une montre minimaliste sur fond noir] The watch slowly rotates 360 degrees over 8 seconds, revealing all sides. Maintain the warm studio lighting from the original image. Subtle reflections dance across the dial as it turns. Camera holds steady with a very slight zoom toward the crown at mid-rotation.
Astuce : générer vos propres références Si vous n’avez pas d’image de référence, utilisez le générateur d’images d’OpenAI (DALL-E / ChatGPT) pour créer rapidement un concept art ou un design d’environnement, puis passez-le directement à Sora. C’est un workflow efficace pour tester des esthétiques avant de lancer une série de vidéos.

Références de personnages

Depuis la mise à jour de mars 2026, Sora supporte les character references : vous uploadez un personnage (objet ou animal) une fois, et vous le réutilisez dans plusieurs vidéos avec une apparence cohérente. Cette fonctionnalité est particulièrement utile pour les séries de contenus ou les campagnes marketing nécessitant un personnage récurrent.

Restriction importante sur les visages Depuis février 2026, Sora interdit l’upload d’images de visages humains comme références de personnages, que ce soient de vraies personnes ou des humains numériques. Cette restriction s’applique à l’API comme à l’interface web. Pour la cohérence de personnages humains, vous devez vous appuyer sur des descriptions textuelles détaillées, ce qui limite la précision à environ 70% de cohérence entre clips.

Prompts avec dialogue et audio

Sora 2 génère de l’audio synchronisé : dialogues, effets sonores et ambiance musicale. C’est un avantage significatif par rapport à Runway ou Kling qui nécessitent un traitement audio séparé.

Structurer le dialogue dans un prompt

Le dialogue doit être séparé de la description visuelle. Placez-le dans un bloc distinct sous la prose descriptive pour que le modèle distingue clairement ce qui est visuel de ce qui est parlé.

A cozy bookshop interior, late afternoon. Warm lamp light illuminates dusty shelves. An elderly man with round glasses sits behind the counter, looking up from a leather-bound book as a young woman enters. Dialogue: Old man: « Ah, you’re back. I kept something for you. » Young woman: « The first edition? You found it? » Old man: (smiling) « It found me, actually. »

Quelques règles pour le dialogue :

Gardez les répliques courtes. Les phrases longues et complexes risquent de désynchroniser le lip-sync. Limitez-vous à une ou deux phrases par personnage.

Identifiez les personnages de manière cohérente. Si vous avez deux personnages, utilisez le même label (« Old man », « Young woman ») tout au long du prompt.

Adaptez la quantité au timing. Pour un clip de 10 secondes, 3 à 4 répliques courtes sont un maximum réaliste. Au-delà, le rythme devient forcé.

Effets sonores et ambiance

Vous pouvez décrire les sons directement dans le prompt. Sora génère une bande-son complète comprenant les bruits d’environnement, les effets et le dialogue :

Close-up of espresso being poured into a ceramic cup. The sound of steam hissing, the gurgling of the machine, and the gentle clinking of the cup on the saucer. Background murmur of a busy café, distant jazz piano.

Techniques avancées de prompting

Séquences multi-plans

Sora 2 peut suivre des instructions couvrant plusieurs plans tout en maintenant la cohérence du monde (personnages, décor, éclairage). C’est l’une des améliorations majeures par rapport au premier modèle Sora.

Pour une séquence multi-plans, décrivez chaque plan en « beat » temporel :

A neon-lit ramen shop in Tokyo at night. Beat 1 (0-4s): Wide establishing shot of the exterior. Rain falls on the street, reflecting the red and blue neon signs. A figure approaches the entrance. Beat 2 (4-8s): Cut to interior. Close-up of steam rising from a bowl of ramen being placed on the counter. The chef’s hands retreat. Beat 3 (8-12s): Medium shot of the customer sitting alone at the counter, lifting chopsticks. Warm interior light contrasts with the cold blue rain visible through the window behind.
Attention à la durée Plus le clip est long, plus Sora risque de dévier du prompt. Le guide officiel recommande de privilégier des clips courts (4-8 secondes) assemblés ensuite en post-production plutôt qu’une seule génération longue. Deux clips de 4 secondes bien maîtrisés donneront un meilleur résultat qu’un seul clip de 8 secondes.

Extension vidéo

Sora peut prolonger une vidéo existante en utilisant le clip initial complet comme contexte (pas seulement la dernière frame). C’est une fonctionnalité ajoutée récemment qui permet de construire des séquences plus longues par itération.

Le workflow est le suivant : générez un clip de base, vérifiez le résultat, puis utilisez l’endpoint d’extension pour ajouter des secondes supplémentaires avec un nouveau prompt décrivant la suite de l’action.

Reproduire des styles cinématographiques

Sora excelle dans la reproduction d’esthétiques de caméra spécifiques. Voici les styles les mieux interprétés :

Style Mots-clés à inclure dans le prompt Résultat
IMAX aérien IMAX aerial, sweeping crane, 65mm Plans larges spectaculaires, netteté extrême
35mm argentique 35mm film stock, natural grain, photochemical color Rendu organique, grain visible, couleurs chaudes
Documentaire 16mm 16mm documentary, handheld, available light Caméra épaule, éclairage naturel, authenticité
Film noir film noir, high contrast B&W, venetian blind shadows Noir et blanc contrasté, ombres dramatiques
Clip musical 80s 80s music video, VHS aesthetic, neon, synth-wave Couleurs saturées, effets rétro, scanlines
Animation Pixar 3D Pixar-style animation, subsurface scattering, soft rendering Animation 3D expressive, rendu doux
Stop-motion stop-motion animation, claymation, handcrafted Mouvement saccadé, textures artisanales

Maintenir la cohérence dans une série

Pour un projet multi-clips (campagne publicitaire, série de contenus), créez un « guide de style » réutilisable que vous intégrez au début de chaque prompt :

Series Style Guide: Visual: Minimalist flat design animation, muted pastel palette (soft blue, warm cream, sage green). Characters: Simple geometric forms with dot-style eyes. Aesthetic: Modern SaaS product demo, clean typography overlays. Motion: Smooth easing transitions, no abrupt cuts. Lighting: Soft, diffused, no harsh shadows. Audio: Minimal, warm ambient tones. [Insert scene-specific prompt below]

Ce bloc de style garantit une cohérence visuelle entre tous les clips de la série, même s’ils sont générés à des jours d’intervalle.


Utiliser les prompts via l’API Sora

L’API Sora utilise l’endpoint POST /v1/videos. Voici la structure d’un appel type :

{ « model »: « sora-2 », « prompt »: « A slow aerial shot over a misty valley at dawn… », « size »: « 1280×720 », « seconds »: 8 }

Les paramètres techniques clés :

Paramètre Valeurs Notes
model sora-2, sora-2-pro Pro = meilleure qualité, plus lent, résolutions supérieures
size 1280x720, 720x1280, 1920x1080, 1080x1920 1080p uniquement avec sora-2-pro
seconds 4 à 20 Clips courts (4-8s) = meilleure fiabilité
input_reference Image JPEG/PNG/WebP Doit correspondre à la résolution cible

Le modèle sora-2 (standard) est limité à du 720p, tandis que sora-2-pro monte à du 1080p natif et produit un rendu de meilleure qualité. Le Pro est aussi plus lent : comptez environ 45 secondes pour un clip 5s en 1080p, contre 2-3 minutes pour un clip de 20 secondes.

Batch API pour la production

Pour les workflows de production à grande échelle, Sora propose un Batch API permettant de soumettre des jobs de génération asynchrones. C’est la solution pour générer des dizaines de variantes d’un clip (par exemple, la même scène dans différentes villes pour une campagne internationale).

Le principe : vous soumettez un CSV de prompts, chaque ligne étant un job indépendant. Les résultats sont récupérés via webhook ou polling. Cela évite les timeouts et permet de traiter de gros volumes de nuit.


Erreurs courantes à éviter

Erreur 1 : mettre les paramètres techniques dans le prompt

« Generate a 20-second 1080p video » dans le texte du prompt ne fait rien. La résolution et la durée se configurent dans les paramètres de l’API ou de l’interface. Le prompt ne contrôle que le contenu visuel et sonore.

Erreur 2 : surcharger le prompt d’actions

Pour un clip de 8 secondes, décrire 5 actions complexes va produire un résultat chaotique. Limitez-vous à 2-3 beats d’action par clip. Si votre scène est complexe, découpez-la en plusieurs clips courts assemblés en post-production.

Erreur 3 : ignorer la physique

Sora 2 a nettement progressé sur la simulation physique (un ballon de basket qui rebondit sur le panneau au lieu de se téléporter dans le panier), mais il reste imparfait. Évitez les scènes avec des interactions physiques très complexes (fluides en cascade, explosions multiples, foules denses en mouvement) sur de longues durées.

Erreur 4 : négliger le style visuel

Le style est la première chose que Sora interprète. Un prompt sans indication de style (« A man walks in a city ») produira un résultat générique. Ajoutez toujours une référence esthétique même minimale (« Cinematic, 35mm, golden hour »).

Erreur 5 : des dialogues trop longs

Les répliques longues désynchronisent le lip-sync. Gardez chaque réplique sous 10-12 mots. Pour des dialogues étendus, utilisez plusieurs clips enchaînés.


Templates de prompts Sora réutilisables

Template : vidéo produit e-commerce

Product showcase on a [material] surface. [Product description] enters frame from the right and lands softly. Camera: Slow orbit, 45-degree angle, shallow depth of field. Lighting: Soft studio key light from above-left, subtle rim light. Duration: 8 seconds. Motion: Product rotates slightly as camera orbits. Subtle reflections. Audio: Clean, minimal ambient tone. Soft « landing » sound effect when product enters.

Template : visite immobilière virtuelle

Real estate walkthrough of a [style] apartment. Camera enters through the front door and glides smoothly through the hallway into the living room. Style: High-end real estate video, natural daylight, 24mm wide-angle. Movement: Steady gimbal, walking pace, eye-level height. Lighting: Late morning sun streaming through large windows, warm ambient fill. Audio: Soft footsteps on hardwood, distant city sounds through open windows.

Template : contenu réseaux sociaux (format vertical)

9:16 vertical format. [Subject] centered in frame against a [background]. Style: Clean, bright, social media aesthetic. Slightly overexposed, soft focus background. Action: [Subject] looks directly at camera and [action]. Quick, punchy movement. Duration: 5 seconds. Audio: Trending audio-style upbeat rhythm, no dialogue.

Template : B-roll cinématique

Cinematic B-roll of [location/subject]. Slow, contemplative pacing. Camera: [Tracking shot / static / aerial]. Smooth movement, no jarring transitions. Style: Documentary-grade, anamorphic lens flares, desaturated color grade with teal and orange tones. Lighting: [Golden hour / overcast / neon night]. Audio: Ambient environmental sounds only, no music.

Prompting Sora vs les concurrents

Chaque générateur vidéo IA a ses particularités en matière de prompting. Voici comment Sora se compare :

Critère Sora (OpenAI) Runway Gen-3 Kling Veo 3.1
Durée max 20s ~10s (extensible) Variable Variable
Audio natif Oui (dialogue + SFX) Non Non Oui
Image-to-video Oui Oui Oui Oui
Character ref Oui (objets/animaux) Partiel Partiel Via image ref
Physique Avancée Bonne Bonne Avancée
Force du prompt Vocabulaire ciné très bien compris Motion brush + prompt Prompts courts efficaces Intégration Gemini
Disponibilité UE Sora 2 non dispo Oui Oui Oui (via API)

Le principal avantage de Sora sur le prompting est sa compréhension fine du vocabulaire cinématographique. Là où Kling et Runway répondent mieux à des prompts courts et directs, Sora brille avec des briefs de production détaillés décrivant optique, éclairage et mouvement de caméra. L’audio synchronisé natif est l’autre différenciateur majeur : seul Veo 3.1 de Google offre une capacité comparable.

Le gros point faible pour les utilisateurs français : Sora 2 n’est toujours pas officiellement disponible dans l’UE. L’ancienne version Sora 1 est accessible en Europe, mais Sora 2 (avec ses capacités améliorées et l’audio synchronisé) reste limité aux États-Unis et au Canada. Pour plus de détails, consultez notre page sur les limites de Sora et le comparatif des générateurs vidéo IA.


Workflow complet : du prompt au clip final

Voici le processus recommandé pour obtenir les meilleurs résultats avec Sora, que ce soit via l’interface ChatGPT ou l’API :

Étape 1 : Définir l’objectif. Avant d’écrire quoi que ce soit, clarifiez le format (paysage, portrait), la durée cible, et l’usage final (réseaux sociaux, site web, présentation). Cela détermine vos paramètres techniques.

Étape 2 : Rédiger un premier prompt en 480p. Commencez par un brouillon rapide en basse résolution. C’est 85% moins coûteux en crédits et beaucoup plus rapide à générer. Testez 3-4 variantes pour affiner la direction.

Étape 3 : Itérer sur le prompt. Analysez ce qui fonctionne et ce qui ne fonctionne pas. Ajoutez ou retirez des détails. Le processus itératif est normal : les meilleurs créateurs Sora raffinent leurs prompts sur 5-10 générations.

Étape 4 : Passer en haute résolution. Une fois satisfait du résultat en 480p, relancez le prompt final en 720p ou 1080p (selon votre plan). Attendez-vous à des différences subtiles car chaque génération est unique.

Étape 5 : Post-production. Sora ne remplace pas le montage. Assemblez vos clips, ajustez le color grading si nécessaire, et intégrez-les dans votre projet final. Pour des séquences longues, le stitching de plusieurs clips courts sera toujours supérieur à une seule génération longue.

Budget crédits Le système de crédits Sora évolue rapidement. À titre indicatif, la consommation varie selon la résolution : 480p utilise 4 crédits/seconde, 720p en utilise 16, et 1080p en consomme 40. Tester en 480p d’abord, c’est économiser significativement. Consultez notre page Sora prix pour les tarifs à jour.

FAQ : Prompts Sora

Faut-il écrire les prompts Sora en anglais ou en français ?

En anglais. Sora comprend le français, mais les résultats sont significativement meilleurs en anglais, notamment pour le vocabulaire cinématographique et les instructions de caméra. Le modèle a été principalement entraîné sur des descriptions en anglais. Même les utilisateurs francophones ont intérêt à rédiger leurs prompts en anglais pour un résultat optimal.

Quelle est la longueur idéale d’un prompt Sora ?

Entre 3 et 10 phrases pour la plupart des cas d’usage. Un prompt trop court (1 phrase) laisse trop de place à l’improvisation du modèle. Un prompt trop long (20+ phrases) risque de produire des incohérences car Sora essaie de respecter toutes les instructions simultanément. Le sweet spot se situe entre 50 et 150 mots, avec une structure claire séparant style, sujet, action et caméra.

Comment obtenir des personnages cohérents entre plusieurs vidéos Sora ?

Trois méthodes complémentaires. Premièrement, utilisez les character references (objets et animaux uniquement, les visages humains sont bloqués depuis février 2026). Deuxièmement, fournissez une image de référence identique pour chaque clip via le paramètre input_reference. Troisièmement, intégrez un bloc « style guide » détaillé au début de chaque prompt, décrivant précisément l’apparence du personnage. La cohérence parfaite reste un défi pour tous les générateurs vidéo IA, attendez-vous à environ 70-85% de fidélité selon la méthode utilisée.

Sora peut-il générer du texte lisible dans les vidéos ?

Sora a progressé sur le rendu de texte mais reste imparfait. Les textes courts (1-3 mots) comme des enseignes ou des logos s’en sortent raisonnablement bien. Les textes longs, les sous-titres ou les blocs de paragraphes apparaîtront déformés ou illisibles. Si vous avez besoin de texte précis dans votre vidéo, ajoutez-le en post-production plutôt que de le demander dans le prompt.

Comment réduire le coût de génération des vidéos Sora ?

Testez systématiquement en 480p avant de monter en résolution. Un clip de 10 secondes en 480p consomme 40 crédits contre 400 en 1080p. Gardez les clips courts (4-8 secondes) pour maximiser la fiabilité et réduire les itérations ratées. Utilisez le Batch API pour les gros volumes plutôt que des générations individuelles. Et surtout, affinez votre prompt en basse résolution avant de lancer la version finale en haute qualité.

Polydesk.ai — Footer