Veo Prompts : guide complet pour maîtriser Google Veo 3.1
Veo 3.1 ne génère pas simplement une vidéo depuis un texte : il comprend la structure narrative, le langage cinématique et la synchronisation audiovisuelle. Un prompt efficace ne décrit pas juste ce que vous voulez voir, il dirige ce que le spectateur ressent, entend et expérimente.
La qualité des sorties Veo dépend directement de la précision de vos instructions. Un prompt vague (« a woman drinking coffee ») produit un clip générique avec un cadrage aléatoire et pas d’intention. Un prompt structuré (« cinematic close-up, woman in a sun-drenched café, steam rising from a ceramic mug, slow dolly-in, 35mm lens ») produit un plan avec une intention claire, un éclairage cohérent et un mouvement de caméra motivé. Ce guide vous donne la méthode pour obtenir systématiquement le deuxième résultat.
- Formule
- [Cadrage + optique] + [Sujet] + [Action + physique] + [Décor + ambiance] + [Éclairage + style] + [Audio]
- Longueur idéale
- 3-6 phrases, 100-150 mots
- Audio dans le prompt
- Dialogue entre guillemets, SFX: préfixe, Ambient: préfixe
- Negative prompts
- Pas de champ dédié, formuler dans le prompt (« with no… »)
- Modes
- Text-to-video, Image-to-video, First/Last Frame
- Durée
- 4, 6 ou 8 secondes par génération
La formule du prompt Veo parfait
Les meilleurs prompts Veo suivent une structure en couches, chacune guidant un aspect de la génération. Le guide officiel de Google Cloud et les tests de créateurs convergent sur cette formule :
Les sept couches du prompt
1. Cadrage et optique. Comment la caméra voit la scène. C’est la première décision à prendre car elle détermine l’émotion avant même que le sujet n’agisse. Plan large (wide shot) pour le contexte, gros plan (close-up) pour l’intimité, plongée pour la vulnérabilité. Spécifiez l’objectif : 16mm pour élargir l’espace, 35mm pour une perspective naturelle, 85mm pour comprimer l’arrière-plan et créer de l’intimité.
2. Le sujet. Qui ou quoi est au centre de la scène. Verrouillez l’identité en début de prompt avec des détails visuels spécifiques : âge approximatif, couleur de cheveux, type de vêtement avec matière (« charcoal cotton hoodie », pas juste « hoodie »). Les indices de matière (coton, soie, cuir) aident Veo à stabiliser les reflets et les textures du sujet en mouvement.
3. L’action et la physique. Ce qui se passe dans la scène. Utilisez des verbes de force (push, pull, sway, ripple, spiral) plutôt que des verbes vagues (move, go). Un mouvement avec une force définie produit un résultat plus réaliste. Limitez-vous à une action dominante par prompt pour un résultat propre.
4. Le décor et l’environnement. Pas juste « où » mais « comment le monde se comporte ». Précisez le moment de la journée, la qualité de la lumière, les éléments d’arrière-plan en mouvement (feuilles, fumée, pluie). L’environnement n’est pas un fond statique, c’est un système qui participe à la scène.
5. L’éclairage. Nommez toujours une source de lumière concrète : enseigne néon, fenêtre en contre-jour, ciel couvert, lampadaire. « Dramatic lighting » ne donne rien de prévisible. « Single overhead spotlight casting a sharp shadow on the floor » donne un résultat cinématique contrôlé.
6. Le style et l’esthétique. Cinématique, documentaire, animation, film noir, VHS. Ces mots-clés ancrent le traitement visuel global : grain, palette de couleurs, contraste, profondeur de champ.
7. L’audio. C’est la couche qui distingue Veo de la majorité des concurrents. Structurez l’audio en trois blocs distincts (voir section dédiée ci-dessous).
Diriger l’audio dans le prompt
L’audio est la force signature de Veo 3.1. Le modèle génère trois types de son, chacun avec sa syntaxe propre dans le prompt :
Dialogue
Utilisez des guillemets pour le dialogue. Veo génère la voix avec lip-sync synchronisé (précision sous 120ms) :
Pour les scènes multi-personnages, identifiez clairement qui parle :
Effets sonores
Décrivez les sons avec précision. Veo les synchronise avec les événements visuels :
Ambiance
Définissez le fond sonore pour ajouter de la profondeur :
Musique
Veo peut générer des scores musicaux originaux. Spécifiez le genre, l’instrumentation, l’humeur et le rythme :
Vous pouvez combiner ces quatre couches audio dans un même prompt. Veo les mixe en un soundtrack cohérent :
Pour un guide complet sur l’audio Veo, consultez notre page dédiée Veo audio.
Exemples de prompts par cas d’usage
Cinématique / B-roll
Corporate / professionnel
Vidéo produit
Éducatif / explainer
Workflows avancés
Ingredients to Video
Fournissez jusqu’à 3 images de référence (personnage, objet, décor) et Veo maintient leur identité dans la vidéo. Le workflow recommandé par Google :
Étape 1 : Générez vos images « ingrédients » avec Nano Banana Pro (Gemini 3 Pro Image) ou un autre générateur d’images. Étape 2 : Uploadez les images comme références dans l’appel Veo. Étape 3 : Rédigez votre prompt en décrivant l’action et l’ambiance, pas l’apparence (les références s’en chargent).
First & Last Frame
Fournissez une image de début et une image de fin. Veo génère la transition naturelle entre les deux, avec physique, mouvement de caméra et audio adaptés. C’est puissant pour :
Les transitions créatives entre deux états (jour/nuit, avant/après). Les mouvements de caméra complexes (orbite 180°, travelling vertical). Les boucles parfaites (même image en début et fin).
Scene Extension
Générez un premier clip, puis prolongez-le avec de nouveaux prompts. Chaque extension utilise la dernière seconde du clip précédent comme contexte. Mentionnez les vêtements, les éléments d’environnement et les actions en cours pour aider le modèle à maintenir la cohérence.
Gérer les exclusions sans negative prompts
Veo n’a pas de champ « negative prompt » dédié comme Kling. Pour exclure des éléments, formulez les exclusions dans le prompt lui-même de manière affirmative :
« A desolate landscape with no buildings or roads » fonctionne mieux que « no man-made structures ». « A clean studio background, completely empty » fonctionne mieux que « no objects in the background ». Le modèle comprend mieux les descriptions de ce qui est présent (ou absent de manière spécifique) que les listes d’exclusions abstraites.
Erreurs courantes à éviter
Prompts trop courts ou trop longs. Le sweet spot est 3 à 6 phrases, 100 à 150 mots. Un prompt d’une phrase laisse trop de place à l’interprétation. Un paragraphe de 20 phrases crée de la confusion et des incohérences.
Empiler plusieurs actions. « She runs, jumps over a fence, catches a ball, and slides » dans un clip de 8 secondes est trop ambitieux. Une action dominante par prompt, deux maximum.
Oublier la source de lumière. « Good lighting » ou « well-lit » ne donne rien de cinématique. Nommez la source : « late afternoon sun streaming through venetian blinds » transforme un plan ordinaire en plan de cinéma.
Ignorer l’audio. L’audio est la force de Veo 3.1. Un prompt sans instructions audio gaspille 50% du potentiel du modèle. Ajoutez toujours au minimum une description d’ambiance sonore.
Utiliser des negative prompts comme avec Kling. Veo ne les supporte pas en champ séparé. Reformulez en descriptions affirmatives dans le prompt principal.
Négliger le mode Fast pour les itérations. Veo 3.1 offre deux variantes : Standard (meilleure qualité) et Fast (génération rapide). Pendant la phase d’exploration créative, utilisez systématiquement le mode Fast pour tester des directions visuelles. Le mode Fast est conçu pour l’itération rapide et coûte moins de crédits. Réservez le mode Standard pour les rendus finaux une fois votre direction validée.
Templates de prompts Veo réutilisables
Template maître (à adapter)
Template : contenu social vertical
Template : transition First/Last Frame
Template : Scene Extension
Pour les Scene Extensions, mentionnez systématiquement les vêtements du personnage, les éléments d’environnement et les actions en cours du clip précédent. Ces rappels aident Veo à maintenir la cohérence visuelle entre les segments. La règle : plus vous êtes explicite sur ce qui doit rester constant, meilleure sera la continuité.
Prompting Veo vs Sora vs Kling
| Aspect | Veo 3.1 | Sora 2 | Kling 3.0 |
|---|---|---|---|
| Force du prompt | Narration + audio intégré | Brief ciné technique (optique, pellicule) | Direction multi-shots (beats temporels) |
| Audio dans le prompt | Meilleur (guillemets, SFX:, Ambient:) | Bon (bloc séparé) | Bon (tags personnage) |
| Negative prompts | Non (reformuler dans le prompt) | Non | Oui (champ dédié) |
| Multi-shots natif | Non (Scene Extension) | Oui (via beats) | Oui (6 plans) |
| Longueur idéale | 100-150 mots | 50-150 mots | Variable (courts acceptés) |
| References images | Jusqu’à 3 (Ingredients) | 1 (input_reference) | 4 (Multi-Elements) |
La principale différence : Veo est le seul modèle où l’audio fait partie intégrante du prompt. Si vous n’incluez pas d’instructions audio, vous sous-utilisez le modèle. Chez Sora et Kling, l’audio est un bonus. Chez Veo, c’est un pilier.
FAQ : Veo Prompts
Quelle est la longueur idéale d’un prompt Veo ?
Entre 3 et 6 phrases, soit 100 à 150 mots. C’est le consensus du guide officiel Google Cloud, des tests de créateurs, et des guides spécialisés. Les prompts trop courts (1 phrase) produisent des résultats génériques. Les prompts trop longs (20+ phrases) créent de la confusion. Chaque phrase doit couvrir une couche spécifique : cadrage, sujet, action, décor, éclairage, style ou audio.
Comment inclure du dialogue dans un prompt Veo ?
Placez le dialogue entre guillemets directement dans le prompt. Identifiez le personnage qui parle : A woman says, "We have to leave now." Pour les scènes multi-personnages, identifiez chaque locuteur par sa description physique ou sa position. Veo génère le lip-sync automatiquement avec une précision sous 120 millisecondes. Gardez les répliques courtes (1-2 phrases) pour un lip-sync fiable.
Veo supporte-t-il les negative prompts ?
Non, pas en champ dédié. Pour exclure des éléments, formulez l’exclusion directement dans le prompt de manière affirmative : « a clean empty room with white walls, no furniture » plutôt qu’une liste d’exclusions. Le modèle comprend mieux ce qui est décrit comme présent (même si c’est une absence) que des listes d’éléments à éviter.
Faut-il écrire les prompts Veo en anglais ?
Oui, fortement recommandé. Veo comprend d’autres langues mais les résultats sont significativement meilleurs en anglais, surtout pour le vocabulaire cinématique et les instructions audio. Le dialogue peut être dans n’importe quelle langue (Veo génère le lip-sync adapté), mais le prompt descriptif doit rester en anglais pour une adhérence maximale.
Peut-on utiliser Gemini pour améliorer ses prompts Veo ?
Oui, et Google le recommande explicitement. Si votre prompt est trop simple ou manque de vocabulaire cinématique, demandez à Gemini de l’enrichir avec des descriptions plus détaillées et professionnelles. Le workflow Gemini → Veo est conçu pour fonctionner en tandem : Gemini traduit votre intention créative en langage que Veo interprète avec précision. C’est un avantage de l’écosystème Google que les concurrents ne peuvent pas reproduire aussi naturellement.