Polydesk-logotype
Polydesk.ai — Header

Veo Prompts : guide complet pour maîtriser Google Veo 3.1

Veo 3.1 ne génère pas simplement une vidéo depuis un texte : il comprend la structure narrative, le langage cinématique et la synchronisation audiovisuelle. Un prompt efficace ne décrit pas juste ce que vous voulez voir, il dirige ce que le spectateur ressent, entend et expérimente.

La qualité des sorties Veo dépend directement de la précision de vos instructions. Un prompt vague (« a woman drinking coffee ») produit un clip générique avec un cadrage aléatoire et pas d’intention. Un prompt structuré (« cinematic close-up, woman in a sun-drenched café, steam rising from a ceramic mug, slow dolly-in, 35mm lens ») produit un plan avec une intention claire, un éclairage cohérent et un mouvement de caméra motivé. Ce guide vous donne la méthode pour obtenir systématiquement le deuxième résultat.

Veo Prompts — Synthèse
Formule
[Cadrage + optique] + [Sujet] + [Action + physique] + [Décor + ambiance] + [Éclairage + style] + [Audio]
Longueur idéale
3-6 phrases, 100-150 mots
Audio dans le prompt
Dialogue entre guillemets, SFX: préfixe, Ambient: préfixe
Negative prompts
Pas de champ dédié, formuler dans le prompt (« with no… »)
Modes
Text-to-video, Image-to-video, First/Last Frame
Durée
4, 6 ou 8 secondes par génération

La formule du prompt Veo parfait

Les meilleurs prompts Veo suivent une structure en couches, chacune guidant un aspect de la génération. Le guide officiel de Google Cloud et les tests de créateurs convergent sur cette formule :

Les sept couches du prompt

1. Cadrage et optique. Comment la caméra voit la scène. C’est la première décision à prendre car elle détermine l’émotion avant même que le sujet n’agisse. Plan large (wide shot) pour le contexte, gros plan (close-up) pour l’intimité, plongée pour la vulnérabilité. Spécifiez l’objectif : 16mm pour élargir l’espace, 35mm pour une perspective naturelle, 85mm pour comprimer l’arrière-plan et créer de l’intimité.

2. Le sujet. Qui ou quoi est au centre de la scène. Verrouillez l’identité en début de prompt avec des détails visuels spécifiques : âge approximatif, couleur de cheveux, type de vêtement avec matière (« charcoal cotton hoodie », pas juste « hoodie »). Les indices de matière (coton, soie, cuir) aident Veo à stabiliser les reflets et les textures du sujet en mouvement.

3. L’action et la physique. Ce qui se passe dans la scène. Utilisez des verbes de force (push, pull, sway, ripple, spiral) plutôt que des verbes vagues (move, go). Un mouvement avec une force définie produit un résultat plus réaliste. Limitez-vous à une action dominante par prompt pour un résultat propre.

4. Le décor et l’environnement. Pas juste « où » mais « comment le monde se comporte ». Précisez le moment de la journée, la qualité de la lumière, les éléments d’arrière-plan en mouvement (feuilles, fumée, pluie). L’environnement n’est pas un fond statique, c’est un système qui participe à la scène.

5. L’éclairage. Nommez toujours une source de lumière concrète : enseigne néon, fenêtre en contre-jour, ciel couvert, lampadaire. « Dramatic lighting » ne donne rien de prévisible. « Single overhead spotlight casting a sharp shadow on the floor » donne un résultat cinématique contrôlé.

6. Le style et l’esthétique. Cinématique, documentaire, animation, film noir, VHS. Ces mots-clés ancrent le traitement visuel global : grain, palette de couleurs, contraste, profondeur de champ.

7. L’audio. C’est la couche qui distingue Veo de la majorité des concurrents. Structurez l’audio en trois blocs distincts (voir section dédiée ci-dessous).

Commencez simple, puis enrichissez Le guide officiel de Google recommande de partir d’un prompt simple, de vérifier le résultat, puis d’ajouter des couches progressivement. Un prompt de 3 phrases bien ciblées produit souvent un meilleur résultat qu’un paragraphe de 10 phrases mal structuré. Lancez la même version 2-3 fois car Veo produit un résultat différent à chaque exécution.

Diriger l’audio dans le prompt

L’audio est la force signature de Veo 3.1. Le modèle génère trois types de son, chacun avec sa syntaxe propre dans le prompt :

Dialogue

Utilisez des guillemets pour le dialogue. Veo génère la voix avec lip-sync synchronisé (précision sous 120ms) :

A woman in a lab coat turns to the camera and says, « The results are exactly what we predicted. »

Pour les scènes multi-personnages, identifiez clairement qui parle :

Two friends sit on a park bench. The woman on the left says, « I’ve been thinking about moving. » The man responds, « Where would you go? »

Effets sonores

Décrivez les sons avec précision. Veo les synchronise avec les événements visuels :

SFX: thunder cracks in the distance, followed by the patter of rain on a tin roof.

Ambiance

Définissez le fond sonore pour ajouter de la profondeur :

Ambient noise: the quiet hum of a starship bridge, distant mechanical clicks, and a low electrical pulse.

Musique

Veo peut générer des scores musicaux originaux. Spécifiez le genre, l’instrumentation, l’humeur et le rythme :

Music: subtle piano melody with electronic undertones, building slowly, melancholic but hopeful.

Vous pouvez combiner ces quatre couches audio dans un même prompt. Veo les mixe en un soundtrack cohérent :

Wide shot of a narrow alley glowing under pulsating neon signage as cold drizzle falls from the sky. A hooded figure walks slowly past rusted vending machines. Cinematic, urban night. Audio: A distant mechanical alarm blares once, then fades. Neon buzzes softly. Static crackles from unseen speakers. A low electrical hum pulses beneath the rain.

Pour un guide complet sur l’audio Veo, consultez notre page dédiée Veo audio.


Exemples de prompts par cas d’usage

Cinématique / B-roll

Close-up with very shallow depth of field, a young woman’s face, looking out a bus window at the passing city lights with her reflection faintly visible on the glass. Inside a bus at night during a rainstorm. Melancholic mood with cool blue tones, moody, cinematic. Audio: rain tapping softly on the glass, distant engine hum, faint city traffic muffled through the window.

Corporate / professionnel

Side angle medium shot, 30-year-old woman in business casual attire typing on laptop at modern wooden desk. Natural window lighting from left, focused expression. Contemporary office with plants visible in background. Professional, clean. Audio: soft keyboard tapping, gentle office ambiance, no music.

Vidéo produit

A luxury smartwatch sits on a rotating pedestal inside a dark studio. High-key rim lighting highlights its contours while a spotlight from above reveals brand details. Camera: slow 360-degree dolly-around, 24 fps, 16:9, 1080p. Audio: cinematic bass hit followed by subtle ambient synth.

Éducatif / explainer

Cross-section view of a home showing how heat escapes through windows and walls. Thermal imaging effect with color-coded temperature zones. Animated arrows indicating heat loss patterns. Slow methodical camera movement explaining each area. Educational documentary style. Audio: calm narrator voice explains each area, soft ambient background hum.

Workflows avancés

Ingredients to Video

Fournissez jusqu’à 3 images de référence (personnage, objet, décor) et Veo maintient leur identité dans la vidéo. Le workflow recommandé par Google :

Étape 1 : Générez vos images « ingrédients » avec Nano Banana Pro (Gemini 3 Pro Image) ou un autre générateur d’images. Étape 2 : Uploadez les images comme références dans l’appel Veo. Étape 3 : Rédigez votre prompt en décrivant l’action et l’ambiance, pas l’apparence (les références s’en chargent).

First & Last Frame

Fournissez une image de début et une image de fin. Veo génère la transition naturelle entre les deux, avec physique, mouvement de caméra et audio adaptés. C’est puissant pour :

Les transitions créatives entre deux états (jour/nuit, avant/après). Les mouvements de caméra complexes (orbite 180°, travelling vertical). Les boucles parfaites (même image en début et fin).

[Start frame: medium shot of a pop star singing, facing camera, dramatic spotlight] [End frame: POV from behind her, facing the audience] The camera performs a smooth 180-degree arc shot, starting with the front-facing view of the singer and circling around her. She sings: « When you look me in the eyes, I can see a million stars. »

Scene Extension

Générez un premier clip, puis prolongez-le avec de nouveaux prompts. Chaque extension utilise la dernière seconde du clip précédent comme contexte. Mentionnez les vêtements, les éléments d’environnement et les actions en cours pour aider le modèle à maintenir la cohérence.


Gérer les exclusions sans negative prompts

Veo n’a pas de champ « negative prompt » dédié comme Kling. Pour exclure des éléments, formulez les exclusions dans le prompt lui-même de manière affirmative :

« A desolate landscape with no buildings or roads » fonctionne mieux que « no man-made structures ». « A clean studio background, completely empty » fonctionne mieux que « no objects in the background ». Le modèle comprend mieux les descriptions de ce qui est présent (ou absent de manière spécifique) que les listes d’exclusions abstraites.

Astuce Gemini Si vous peinez à rédiger un prompt suffisamment détaillé, demandez à Gemini d’enrichir un prompt simple avec un langage cinématique descriptif. Le workflow Gemini → Veo est conçu pour fonctionner ensemble : Gemini raffine votre intention créative, Veo l’exécute visuellement.

Erreurs courantes à éviter

Prompts trop courts ou trop longs. Le sweet spot est 3 à 6 phrases, 100 à 150 mots. Un prompt d’une phrase laisse trop de place à l’interprétation. Un paragraphe de 20 phrases crée de la confusion et des incohérences.

Empiler plusieurs actions. « She runs, jumps over a fence, catches a ball, and slides » dans un clip de 8 secondes est trop ambitieux. Une action dominante par prompt, deux maximum.

Oublier la source de lumière. « Good lighting » ou « well-lit » ne donne rien de cinématique. Nommez la source : « late afternoon sun streaming through venetian blinds » transforme un plan ordinaire en plan de cinéma.

Ignorer l’audio. L’audio est la force de Veo 3.1. Un prompt sans instructions audio gaspille 50% du potentiel du modèle. Ajoutez toujours au minimum une description d’ambiance sonore.

Utiliser des negative prompts comme avec Kling. Veo ne les supporte pas en champ séparé. Reformulez en descriptions affirmatives dans le prompt principal.

Négliger le mode Fast pour les itérations. Veo 3.1 offre deux variantes : Standard (meilleure qualité) et Fast (génération rapide). Pendant la phase d’exploration créative, utilisez systématiquement le mode Fast pour tester des directions visuelles. Le mode Fast est conçu pour l’itération rapide et coûte moins de crédits. Réservez le mode Standard pour les rendus finaux une fois votre direction validée.


Templates de prompts Veo réutilisables

Template maître (à adapter)

[Camera move + lens]: [Subject with specific visual details] [Action with force verb and physics], in [Setting + time of day + atmosphere], lit by [Specific light source and behavior], [Style keywords]. Audio: [Dialogue if any], [SFX description], [Ambient soundscape].

Template : contenu social vertical

Vertical 9:16 format. Medium shot, [Subject description] centered in frame, looking at camera. [Action]. [Background environment]. Bright, punchy, social-media aesthetic. Duration: 6 seconds. Audio: [Subject says: « Hook line, max 8 words. »] Upbeat ambient energy, no background music.

Template : transition First/Last Frame

[Start frame: description of the opening state] [End frame: description of the ending state] The camera [specific movement: arc, dolly, crane, pan] smoothly transitions from the starting composition to the ending one. [Subject action during transition]. [Lighting shift description]. Audio: [Sound that bridges the two states, ambient continuity].

Template : Scene Extension

[Continuing from previous clip] The same [character description with clothing and features] now [new action]. [Environment continuity: mention ongoing elements from previous clip]. Camera [movement type]. Audio: [Ambient continuity from previous clip], [new sound event].

Pour les Scene Extensions, mentionnez systématiquement les vêtements du personnage, les éléments d’environnement et les actions en cours du clip précédent. Ces rappels aident Veo à maintenir la cohérence visuelle entre les segments. La règle : plus vous êtes explicite sur ce qui doit rester constant, meilleure sera la continuité.


Prompting Veo vs Sora vs Kling

Aspect Veo 3.1 Sora 2 Kling 3.0
Force du prompt Narration + audio intégré Brief ciné technique (optique, pellicule) Direction multi-shots (beats temporels)
Audio dans le prompt Meilleur (guillemets, SFX:, Ambient:) Bon (bloc séparé) Bon (tags personnage)
Negative prompts Non (reformuler dans le prompt) Non Oui (champ dédié)
Multi-shots natif Non (Scene Extension) Oui (via beats) Oui (6 plans)
Longueur idéale 100-150 mots 50-150 mots Variable (courts acceptés)
References images Jusqu’à 3 (Ingredients) 1 (input_reference) 4 (Multi-Elements)

La principale différence : Veo est le seul modèle où l’audio fait partie intégrante du prompt. Si vous n’incluez pas d’instructions audio, vous sous-utilisez le modèle. Chez Sora et Kling, l’audio est un bonus. Chez Veo, c’est un pilier.


FAQ : Veo Prompts

Quelle est la longueur idéale d’un prompt Veo ?

Entre 3 et 6 phrases, soit 100 à 150 mots. C’est le consensus du guide officiel Google Cloud, des tests de créateurs, et des guides spécialisés. Les prompts trop courts (1 phrase) produisent des résultats génériques. Les prompts trop longs (20+ phrases) créent de la confusion. Chaque phrase doit couvrir une couche spécifique : cadrage, sujet, action, décor, éclairage, style ou audio.

Comment inclure du dialogue dans un prompt Veo ?

Placez le dialogue entre guillemets directement dans le prompt. Identifiez le personnage qui parle : A woman says, "We have to leave now." Pour les scènes multi-personnages, identifiez chaque locuteur par sa description physique ou sa position. Veo génère le lip-sync automatiquement avec une précision sous 120 millisecondes. Gardez les répliques courtes (1-2 phrases) pour un lip-sync fiable.

Veo supporte-t-il les negative prompts ?

Non, pas en champ dédié. Pour exclure des éléments, formulez l’exclusion directement dans le prompt de manière affirmative : « a clean empty room with white walls, no furniture » plutôt qu’une liste d’exclusions. Le modèle comprend mieux ce qui est décrit comme présent (même si c’est une absence) que des listes d’éléments à éviter.

Faut-il écrire les prompts Veo en anglais ?

Oui, fortement recommandé. Veo comprend d’autres langues mais les résultats sont significativement meilleurs en anglais, surtout pour le vocabulaire cinématique et les instructions audio. Le dialogue peut être dans n’importe quelle langue (Veo génère le lip-sync adapté), mais le prompt descriptif doit rester en anglais pour une adhérence maximale.

Peut-on utiliser Gemini pour améliorer ses prompts Veo ?

Oui, et Google le recommande explicitement. Si votre prompt est trop simple ou manque de vocabulaire cinématique, demandez à Gemini de l’enrichir avec des descriptions plus détaillées et professionnelles. Le workflow Gemini → Veo est conçu pour fonctionner en tandem : Gemini traduit votre intention créative en langage que Veo interprète avec précision. C’est un avantage de l’écosystème Google que les concurrents ne peuvent pas reproduire aussi naturellement.

Polydesk.ai — Footer