Veo 3.1 et Gemini : guide complet de l’intégration API, Flow et Vertex AI

Veo 3.1, le modèle de génération vidéo IA de Google DeepMind, s’intègre dans tout l’écosystème Gemini : API directe, Google AI Studio, Flow (outil de création), Vertex AI (entreprise), app Gemini et même YouTube. Ce guide détaille chaque canal d’accès, le code pour démarrer et les pièges à éviter, notamment en Europe.

Modèle: veo-3.1-generate-preview (Standard) · veo-3.1-fast-generate-preview (Fast)
SDK: Python (google-genai) · JavaScript · Go · REST/cURL
Canaux: Gemini API · Google AI Studio · Flow · Vertex AI · App Gemini · YouTube Shorts · Google Vids
Résolution: 720p, 1080p, 4K (Standard uniquement)
Durée: 8 s par clip · Extension de scène (+7 s par itération, jusqu’à ~148 s total)
Audio: Co-génération native (dialogue, effets, musique) · 48 kHz
Prix API: Fast : ~0,15 $/s · Standard : ~0,40 $/s · Vertex AI Standard : 0,40 à 0,75 $/s
Restriction Europe: Image-to-video indisponible dans l’EEE, Suisse et UK (via app Gemini)

Veo 3.1 dans l’écosystème Google : vue d’ensemble

Veo 3.1 n’est pas un produit isolé. C’est un modèle intégré à la couche Gemini de Google, accessible via plusieurs surfaces selon votre profil (créateur, développeur, entreprise). Comprendre cette architecture est essentiel pour choisir le bon canal d’accès.

L’écosystème se structure en quatre couches : l’app Gemini et Flow pour les créateurs qui préfèrent une interface visuelle, la Gemini API via Google AI Studio pour les développeurs, Vertex AI pour les déploiements entreprise, et les intégrations produit (YouTube Shorts, YouTube Create, Google Vids) pour les cas d’usage spécifiques.

Le modèle lui-même existe en deux variantes : Veo 3.1 Standard, qui privilégie la qualité visuelle maximale (jusqu’au 4K) avec un rendu plus lent, et Veo 3.1 Fast, optimisé pour la vitesse et le coût, qui produit des résultats en 720p-1080p adaptés au prototypage rapide et au contenu social.

Les canaux d’accès détaillés

App Gemini : le plus simple, le plus limité

L’app Gemini (web et mobile) est le point d’entrée le plus accessible. Vous tapez un prompt descriptif dans la zone de texte, et Gemini génère un clip de 8 secondes avec audio synchronisé via Veo 3.1.

L’accès dépend de votre abonnement Google AI. Le plan Plus (7,99 $/mois) donne accès à Veo 3.1 Fast uniquement. Le plan Pro (19,99 $/mois) offre 1 000 crédits mensuels, soit environ 8 vidéos de 10 secondes en Fast. Le plan Ultra (249,99 $/mois) débloque Veo 3.1 Standard avec des quotas nettement plus élevés.

Les limites principales de ce canal : pas de contrôle programmatique, quotas de génération quotidiens (les abonnés Ultra rapportent 3 à 5 générations par jour comme plafond), et les vidéos sont plafonnées à 8 secondes sans possibilité d’extension de scène directe.

Restriction EEE/Suisse/UK La fonctionnalité Photo-to-Video (image-to-video) n’est pas disponible dans l’Espace Économique Européen, en Suisse et au Royaume-Uni via l’app Gemini, en raison des réglementations locales sur la protection des données. Le text-to-video reste accessible. Si vous êtes en France, cette restriction s’applique à vous. L’accès via l’API Gemini ou Vertex AI peut contourner certaines de ces limitations, mais vérifiez la documentation officielle avant de vous engager.

Google Flow : l’atelier de création vidéo IA

Flow est l’outil de création vidéo IA de Google, lancé en mai 2025 avec Veo 3. C’est une interface web dédiée à la production vidéo, bien plus puissante que le simple chat Gemini.

Flow donne accès à l’ensemble des fonctionnalités créatives de Veo 3.1 :

Ingredients to Video : vous uploadez jusqu’à 3 images de référence (personnage, objet, décor) et Veo construit une scène complète qui préserve l’identité des éléments. La mise à jour de janvier 2026 a ajouté l’audio natif à cette fonctionnalité, le support du format vertical 9:16, et l’upscaling en 1080p et 4K.

Frames to Video : vous définissez une image de début et une image de fin, et Veo génère la transition entre les deux avec audio synchronisé. Idéal pour les transitions cinématiques et les effets « morph ».

Scene Extension : chaque nouveau clip reprend la dernière seconde du précédent. Vous pouvez enchaîner des extensions de 7 secondes (jusqu’à 20 fois) pour créer des vidéos allant jusqu’à environ 148 secondes.

Insert et Remove (en cours de déploiement) : insertion d’objets dans une scène existante et suppression d’éléments avec reconstruction automatique de l’arrière-plan.

Flow utilise un système de crédits partagé avec votre abonnement Google AI. L’accès nécessite un plan Pro ou Ultra.

Gemini API : l’accès développeur

La Gemini API est le canal d’accès programmatique principal. C’est par ici que vous intégrerez Veo 3.1 dans vos applications, pipelines de production ou outils internes.

L’API est disponible en paid preview : il n’y a pas de free tier pour la génération vidéo. Chaque appel est facturé dès la première seconde. Les identifiants de modèle sont veo-3.1-generate-preview (Standard) et veo-3.1-fast-generate-preview (Fast).

Endpoints preview en cours de migration Google a annoncé la dépréciation des endpoints preview au profit d’endpoints GA (Generally Available) stables. La date limite pour migrer est le 2 avril 2026. Si vous utilisez les endpoints preview actuels, planifiez votre migration avant cette date.

Vertex AI : le canal entreprise

Vertex AI est la couche entreprise de Google Cloud pour l’IA. Elle offre les mêmes capacités de génération vidéo que la Gemini API, avec en plus : la gestion IAM (Identity and Access Management) pour le contrôle d’accès par équipe, la facturation consolidée dans Google Cloud, le contrôle régional des données, les alertes de budget, et les quotas gérables.

L’accès se fait via l’API REST Vertex AI avec un Project ID et une authentification gcloud. Le modèle est hébergé dans la région us-central1. Le prix API Vertex AI pour Veo 3.1 va de 0,40 $/s (Standard 1080p) à 0,75 $/s (Standard avec audio, haute qualité).

Vertex AI supporte également les paramètres avancés : aspectRatio (16:9 ou 9:16), negativePrompt (pour exclure des éléments), personGeneration (contrôle de sécurité pour la génération de visages), resolution (720p, 1080p, 4k), sampleCount (1 à 4 vidéos par requête) et seed (pour la reproductibilité).

Intégrations produit : YouTube, Google Vids

Veo 3.1 est également intégré dans les produits Google orientés contenu. YouTube Shorts et YouTube Create utilisent Veo pour le « Dream Screen » (fond d’écran IA généré). Google Vids, l’outil de création vidéo de Google Workspace, intègre Veo pour la production vidéo d’entreprise. Ces intégrations sont accessibles via les abonnements Google AI correspondants.

Canal	Profil cible	Fonctionnalités Veo	Prix
App Gemini	Grand public, créateurs	Text-to-video, Ingredients (limité)	Abonnement AI Plus/Pro/Ultra
Flow	Créateurs, vidéastes	Complet (Ingredients, Frames, Extension, Insert/Remove)	Abonnement AI Pro/Ultra (crédits)
Gemini API	Développeurs	Text-to-video, Image-to-video, Extension, Références, 4K	0,15 $/s (Fast) à 0,40 $/s (Standard)
Vertex AI	Entreprises	Complet + IAM, facturation Cloud, contrôle régional	0,40 à 0,75 $/s + infra Cloud
YouTube Shorts/Create	Créateurs YouTube	Dream Screen, fonds générés	Abonnement AI Pro/Ultra
Google Vids	Entreprises (Workspace)	Génération vidéo intégrée	Inclus avec Workspace + AI

Générer une vidéo avec la Gemini API en Python

Voici le workflow complet pour générer une vidéo Veo 3.1 via le SDK Python officiel google-genai. La génération est asynchrone : vous soumettez une requête, vous pollez le statut, puis vous téléchargez le résultat.

Prérequis

Vous aurez besoin d’une clé API Gemini en Paid Tier (le free tier ne fonctionne pas avec Veo). Installez le SDK avec pip install google-genai. Configurez votre clé comme variable d’environnement GEMINI_API_KEY ou passez-la directement au client.

Text-to-video : génération simple

import time
from google import genai
from google.genai import types

client = genai.Client()

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="Plan large cinématique d'un drone survolant "
           "les falaises d'Étretat au lever du soleil, "
           "lumière dorée, brume légère sur la mer.",
    config=types.GenerateVideosConfig(
        resolution="1080p",
    ),
)

# Polling : la génération prend de 30 s à plusieurs minutes
while not operation.done:
    print("Génération en cours...")
    time.sleep(10)
    operation = client.operations.get(operation)

# Téléchargement
video = operation.response.generated_videos[0]
client.files.download(video.video)

with open("etretat.mp4", "wb") as f:
    f.write(video.video.video_bytes)

print("Vidéo sauvegardée : etretat.mp4")

Image-to-video : animer une image statique

from google import genai
from google.genai import types
import time

client = genai.Client()

# Charger l'image de référence
with open("product_photo.jpg", "rb") as f:
    image_bytes = f.read()

image = types.Image(
    image_bytes=image_bytes,
    mime_type="image/jpeg"
)

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="Le produit tourne lentement sur lui-même "
           "sur un fond blanc épuré, éclairage studio doux.",
    image=image,
)

while not operation.done:
    time.sleep(10)
    operation = client.operations.get(operation)

video = operation.response.generated_videos[0]
client.files.download(video.video)

with open("product_video.mp4", "wb") as f:
    f.write(video.video.video_bytes)

Image-to-video et EEE Ce code utilise le paramètre image, qui correspond à la fonctionnalité image-to-video. Si vous appelez l’API depuis un compte localisé dans l’EEE, la Suisse ou le UK, cette requête peut être refusée. Le text-to-video (sans paramètre image) fonctionne normalement.

Frames to Video : transition entre deux images

from google import genai
from google.genai import types
import time

client = genai.Client()

# Charger first frame et last frame
first_frame = types.Image(
    image_bytes=open("frame_start.jpg", "rb").read(),
    mime_type="image/jpeg"
)
last_frame = types.Image(
    image_bytes=open("frame_end.jpg", "rb").read(),
    mime_type="image/jpeg"
)

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="Transition fluide et cinématique entre les deux images, "
           "mouvement de caméra doux, lumière naturelle.",
    image=first_frame,
    config=types.GenerateVideosConfig(
        last_frame=last_frame,
    ),
)

while not operation.done:
    time.sleep(10)
    operation = client.operations.get(operation)

video = operation.response.generated_videos[0]
client.files.download(video.video)

with open("transition.mp4", "wb") as f:
    f.write(video.video.video_bytes)

Extension de scène : créer des vidéos longues

Veo 3.1 supporte l’extension de vidéos générées précédemment. Chaque extension ajoute 7 secondes en reprenant la dernière seconde du clip précédent. Vous pouvez enchaîner jusqu’à 20 extensions, ce qui donne un clip continu d’environ 148 secondes (8 + 20 × 7).

Les contraintes d’extension sont strictes : le clip d’entrée doit être en 720p, au format 9:16 ou 16:9, et durer au maximum 141 secondes. Le clip doit avoir été généré par Veo (pas d’upload de vidéo externe).

Génération 4K

operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt="Gros plan sur une goutte d'eau tombant dans un lac, "
           "ralenti, réflexions de lumière cristallines.",
    config=types.GenerateVideosConfig(
        resolution="4k",
    ),
)

La génération en 4K introduit une latence supplémentaire pouvant aller jusqu’à plusieurs minutes. Utilisez le mode Fast en 720p pour le prototypage et réservez le 4K Standard pour les rendus finaux.

Intégration Vertex AI pour l’entreprise

L’accès via Vertex AI utilise une syntaxe d’API différente (REST via les endpoints Google Cloud) et nécessite une authentification projet.

Requête REST Vertex AI

POST https://us-central1-aiplatform.googleapis.com/v1/projects/MON_PROJET/locations/us-central1/publishers/google/models/veo-3.1-generate-preview:predictLongRunning

{
  "instances": [
    {
      "prompt": "Un ingénieur examine un prototype robotique dans un labo high-tech, éclairage néon bleu, caméra en travelling latéral."
    }
  ],
  "parameters": {
    "aspectRatio": "16:9",
    "resolution": "1080p",
    "personGeneration": "allow_adult",
    "sampleCount": 2,
    "seed": 42
  }
}

Le paramètre sampleCount permet de générer jusqu’à 4 variantes par requête, ce qui est utile pour le A/B testing créatif. Le seed assure la reproductibilité : avec le même seed et le même prompt, le modèle génère des résultats identiques.

Avantages Vertex AI vs Gemini API directe

Vertex AI apporte la gouvernance d’entreprise que la Gemini API n’offre pas : contrôle d’accès par rôles (IAM), isolation des données par projet, alertes de budget automatiques, journalisation des appels, et conformité avec les politiques internes. Pour les équipes de production vidéo de plus de 2-3 personnes, Vertex AI est le canal recommandé.

L’autre avantage Vertex AI : la possibilité de construire des pipelines multi-modèles. Vous pouvez enchaîner Gemini (pour le texte et l’analyse), Imagen 4.0 (pour l’image), et Veo 3.1 (pour la vidéo) dans un même workflow, avec une authentification et une facturation unifiées.

SynthID : le watermark obligatoire

Toutes les vidéos générées par Veo 3.1, quel que soit le canal d’accès, portent un filigrane numérique SynthID intégré dans chaque frame. Ce watermark est invisible à l’œil nu mais détectable par les systèmes de vérification. Il persiste après édition, compression et conversion de format.

Vous pouvez vérifier si une vidéo a été générée par Google en l’uploadant dans l’app Gemini et en demandant : « Cette vidéo a-t-elle été générée par une IA Google ? » L’app retournera un rapport de vérification.

Ce watermark n’est pas optionnel. C’est un élément de conformité non négociable dans toutes les sorties Veo.

Bonnes pratiques pour les prompts Veo via Gemini

La qualité des vidéos Veo dépend fortement de la précision de vos prompts. L’API comprend le vocabulaire cinématographique, ce qui vous donne un levier créatif important.

Structure d’un prompt efficace

Un bon prompt Veo inclut quatre éléments : le sujet (qui ou quoi apparaît dans la scène), l’action (ce que le sujet fait), le style (direction artistique, genre cinématographique) et le mouvement de caméra (optionnel mais très efficace).

Exemple minimal : « Un chat calico dort au soleil sur un rebord de fenêtre. » Exemple détaillé : « Plan moyen, intérieur cosy, un chat calico dort paisiblement sur un rebord de fenêtre baigné de lumière dorée. Particules de poussière flottent dans le rayon de soleil. Caméra fixe avec légère profondeur de champ. Ambiance film indépendant, son doux de ronronnement et chant d’oiseaux en fond. »

Le second prompt produira un résultat incomparablement meilleur. Veo comprend les termes techniques : dolly shot, travelling, plan rapproché, contre-plongée, profondeur de champ, film noir, sci-fi, stop motion, etc.

Negative prompts (Vertex AI uniquement)

Le paramètre negativePrompt est disponible via Vertex AI et permet d’exclure explicitement des éléments indésirables. Valeur recommandée : « morphing, distortion, blurry, text, watermarks, bad anatomy, extra limbs, flickering ». Cela réduit significativement les artefacts visuels courants en génération vidéo IA.

Construire un pipeline de production multi-modèle

L’un des avantages majeurs de l’intégration Veo dans Gemini est la possibilité de chaîner plusieurs modèles Google dans un seul workflow.

Workflow Imagen + Veo : du texte à la vidéo via l’image

Le cookbook officiel Google propose un pattern puissant : générer d’abord une image avec Gemini 2.5 Flash Image (« Nano Banana »), puis utiliser cette image comme first frame pour Veo 3.1. Ce pipeline permet de contrôler précisément l’aspect visuel de la première frame avant de lancer la génération vidéo.

from google import genai
import time

client = genai.Client()

prompt = "Portrait en gros plan d'une femme futuriste, "
         "éclairage néon violet et bleu, style cyberpunk."

# Étape 1 : générer l'image avec Nano Banana
image_response = client.models.generate_content(
    model="gemini-2.5-flash-image",
    contents=prompt,
    config={"response_modalities": ["IMAGE"]}
)

first_frame = image_response.parts[0].as_image()

# Étape 2 : animer l'image avec Veo 3.1
operation = client.models.generate_videos(
    model="veo-3.1-generate-preview",
    prompt=prompt + " La caméra recule lentement, "
           "révélant une rue de mégalopole en arrière-plan.",
    image=first_frame,
)

while not operation.done:
    time.sleep(10)
    operation = client.operations.get(operation)

video = operation.response.generated_videos[0]
client.files.download(video.video)
with open("cyberpunk_scene.mp4", "wb") as f:
    f.write(video.video.video_bytes)

Ce pattern est particulièrement utile pour maintenir la consistance visuelle : vous validez l’image générée avant de la transformer en vidéo, au lieu de laisser Veo interpréter un prompt textuel seul.

Prix détaillés par canal

Canal	Modèle	Prix	Coût vidéo 8 s
Gemini API	Veo 3.1 Fast	~0,15 $/s	~1,20 $
Gemini API	Veo 3.1 Standard	~0,40 $/s	~3,20 $
Vertex AI	Veo 3.1 Standard (sans audio)	~0,50 $/s	~4,00 $
Vertex AI	Veo 3.1 Standard (avec audio)	~0,75 $/s	~6,00 $
Abonnement	Google AI Plus (Fast)	7,99 $/mois	~0,16 $/s effectif
Abonnement	Google AI Pro	19,99 $/mois	~0,16 $/s effectif (1 000 crédits)
Abonnement	Google AI Ultra	249,99 $/mois	Quotas élevés, Standard complet
Tiers	fal.ai / Replicate	0,10 à 0,75 $/s	Variable

Optimisation des coûts La stratégie recommandée : utilisez Veo 3.1 Fast pour 80 % de votre travail (brouillons, itérations, contenu social) et réservez Veo 3.1 Standard pour les 20 % restants (rendus finaux, livrables clients). Désactivez l’audio quand il n’est pas nécessaire pour économiser environ 33 % sur le Fast. Planifiez vos générations sur des clips de 8 secondes pile (une vidéo de 9 secondes nécessite 2 générations, doublant le coût).

Limites et pièges à connaître

Restriction européenne (EEE/Suisse/UK)

C’est le point le plus critique pour les utilisateurs français. La fonctionnalité Photo-to-Video (image-to-video) est bloquée dans l’Espace Économique Européen, en Suisse et au Royaume-Uni via l’app Gemini, en raison des réglementations sur la protection des données (probablement liées au RGPD et à l’AI Act).

Le text-to-video fonctionne normalement en Europe. L’accès via l’API Gemini et Vertex AI peut offrir des possibilités supplémentaires, mais vérifiez la documentation officielle pour les restrictions spécifiques à votre configuration. Certaines fonctionnalités liées à la génération de personnes sont également limitées en Europe.

Suppression automatique après 48 heures

Les vidéos générées via l’API sont supprimées des serveurs Google après 48 heures. Si vous ne les téléchargez pas dans ce délai, votre contenu est perdu définitivement. Automatisez le téléchargement dans votre pipeline.

Limites techniques

La durée maximum par génération est de 8 secondes (extensible via Scene Extension). La résolution 4K est réservée au modèle Standard (pas disponible en Fast). Les quotas de génération sont limités même sur les plans payants. Il n’existe pas de free tier permanent pour l’API vidéo. Les prompts en anglais produisent les résultats les plus fiables, bien que d’autres langues soient supportées. Les filtres de sécurité bloquent la génération de contenu inapproprié, de matériel sous copyright et de portraits réalistes de célébrités.

Endpoints en migration

Les endpoints preview actuels seront dépréciés et supprimés le 2 avril 2026. Si vous utilisez les endpoints preview en production, prévoyez la migration vers les endpoints GA avant cette date.

Quel canal choisir ?

Si vous êtes créateur de contenu sans compétence en code et que vous voulez tester Veo rapidement, commencez par l’app Gemini avec un plan Pro (19,99 $/mois). Si vous avez besoin de contrôle créatif avancé (Ingredients, Frames, Extension), utilisez Flow avec le même abonnement.

Si vous êtes développeur et que vous voulez intégrer la génération vidéo dans une application, la Gemini API via Google AI Studio est le point d’entrée logique. Commencez par le mode Fast pour prototyper, passez en Standard pour la production.

Si vous êtes en entreprise avec des besoins de gouvernance, de facturation consolidée et de conformité, Vertex AI est le seul canal approprié. Le surcoût de Vertex AI par rapport à la Gemini API directe se justifie par le contrôle d’accès et la journalisation.

Si vous êtes en France ou dans l’EEE, sachez que l’image-to-video est restreint via l’app Gemini. Pour le text-to-video, tous les canaux fonctionnent. Pour les workflows image-to-video, explorez l’API ou les fournisseurs tiers (fal.ai, Replicate) qui peuvent offrir un accès moins restreint.

Pour comparer Veo 3.1 avec les alternatives, consultez notre comparatif Veo 3.1 vs Seedance 2.0, le comparatif Veo vs Sora, ou notre comparatif complet des générateurs vidéo IA.

Questions fréquentes

La Gemini API pour Veo 3.1 a-t-elle un free tier ?

Non. Contrairement aux modèles textuels Gemini qui offrent des quotas gratuits, la génération vidéo Veo via l’API est payante dès le premier appel. Les nouveaux comptes Google Cloud reçoivent 300 $ de crédits utilisables pour Veo, ce qui permet environ 250 vidéos de 8 secondes en Fast ou ~94 en Standard. Les étudiants avec une adresse .edu peuvent obtenir un an d’accès Google AI Pro gratuit via SheerID.

Peut-on utiliser Veo 3.1 image-to-video depuis la France ?

Via l’app Gemini, non : la fonctionnalité Photo-to-Video est restreinte dans l’EEE, la Suisse et le UK. Via la Gemini API et Vertex AI, certaines fonctionnalités peuvent être accessibles, mais les restrictions varient et évoluent. Consultez la documentation officielle Google et testez avec votre configuration spécifique. Le text-to-video reste accessible sans restriction depuis la France sur tous les canaux.

Quelle est la différence entre Gemini API et Vertex AI pour Veo ?

Le modèle Veo est le même. La différence est dans l’infrastructure autour. La Gemini API (via Google AI Studio) est conçue pour les développeurs individuels : clé API simple, facturation directe, intégration rapide. Vertex AI est conçu pour les entreprises : authentification par projet Google Cloud, IAM, facturation consolidée, alertes budget, journalisation, conformité. Le prix par seconde est généralement plus élevé sur Vertex AI (0,40 à 0,75 $/s vs 0,15 à 0,40 $/s sur la Gemini API), mais l’infrastructure de gouvernance est incluse.

Combien de temps prend la génération d’une vidéo Veo 3.1 ?

En mode Fast, comptez entre 30 secondes et 2 minutes pour un clip de 8 secondes en 720p/1080p. En mode Standard, la génération prend de 1 à 6 minutes selon la résolution. La 4K ajoute plusieurs minutes supplémentaires. L’extension de scène ajoute un cycle de polling complet par extension de 7 secondes. Pour un pipeline de production, prévoyez des timeouts d’au moins 10 minutes par clip.

Les vidéos Veo sont-elles utilisables commercialement ?

Oui, sous conditions. Avec un abonnement Google AI payant ou un accès API en Paid Tier, les vidéos sont utilisables à des fins commerciales. Toutes les vidéos portent le watermark SynthID (invisible) pour l’identification IA. Vérifiez les conditions d’utilisation spécifiques dans les Google Cloud Service Specific Terms et les Additional Terms for Generative AI. L’image-to-video est en « Pre-GA Offerings », ce qui implique des conditions particulières détaillées dans les termes de service.