Runway Text-to-Video : créer des vidéos cinématiques depuis un prompt texte

Le text-to-video de Runway génère des clips vidéo de 2 à 10 secondes à partir d’une description textuelle, sans image d’entrée. Disponible sur Gen-4.5 (modèle phare, 25 crédits/sec) et Gen-3 Alpha (legacy, 10 crédits/sec), il excelle dans les scènes multi-éléments, la physique réaliste et le contrôle de caméra. Le prompt décrit à la fois le visuel et le mouvement.

Modèles supportés: Gen-4.5 Phare · Gen-3 Alpha (legacy)
Durée par clip: 2 à 10 secondes (Gen-4.5) · 5 ou 10 secondes (Gen-3 Alpha)
Image d’entrée: Optionnelle (le prompt seul suffit)
Résolution: Jusqu’à 4K (avec upscaling)
FPS: 24 ou 25 fps (réglable dans les paramètres avancés)
Coût: Gen-4.5 : 25 crédits/sec · Gen-3 Alpha : ~10 crédits/sec
Benchmark: Gen-4.5 : 1er mondial (1 247 Elo, Artificial Analysis)
Plans requis: Standard minimum (12 $/mois). Free : Gen-4 Turbo image-to-video uniquement

Qu’est-ce que le text-to-video Runway

Le text-to-video est le mode de génération vidéo le plus libre de Runway. Vous écrivez un prompt décrivant la scène souhaitée (sujet, action, mouvement de caméra, éclairage, style), et le modèle génère un clip vidéo de quelques secondes sans aucune image de référence. C’est la différence clé avec l’image-to-video, qui part d’une image existante et l’anime.

Le text-to-video est idéal quand vous n’avez pas d’image de départ, quand vous voulez explorer des concepts visuels sans contrainte, ou quand la cohérence avec un visuel existant n’est pas une priorité. Il convient parfaitement aux B-rolls, aux plans d’ambiance, aux effets visuels, aux séquences de stock et au prototypage créatif rapide.

En revanche, pour maintenir la cohérence d’un personnage ou d’un environnement à travers plusieurs plans, l’image-to-video est généralement plus efficace, car l’image d’entrée « ancre » l’apparence visuelle dès la première frame.

Quels modèles supportent le text-to-video ?

Seuls deux modèles Runway proposent le text-to-video pur (sans image) :

Gen-4.5 (décembre 2025) est le modèle phare actuel. 1er au benchmark Artificial Analysis avec 1 247 Elo. Il excelle dans les compositions multi-éléments, la physique réaliste (poids, inertie, dynamiques de fluides), l’adhérence précise aux prompts complexes et le contrôle de caméra. Coût : 25 crédits par seconde de vidéo. C’est le modèle le plus cher mais aussi le plus performant.

Gen-3 Alpha (juin 2024) est le modèle legacy. Toujours disponible, moins coûteux (10 crédits/sec) et adapté au prototypage rapide. Sa qualité est nettement inférieure à Gen-4.5 mais reste supérieure à la plupart des concurrents d’entrée de gamme.

Attention : Gen-4 et Gen-4 Turbo ne supportent pas le text-to-video pur. Ils nécessitent une image d’entrée. C’est un point qui surprend beaucoup de nouveaux utilisateurs.

Text-to-Video vs Image-to-Video : quand utiliser quoi Utilisez le text-to-video quand vous n’avez pas d’image de départ, quand vous explorez des concepts, ou quand vous créez du B-roll et des plans d’ambiance. Utilisez l’image-to-video quand la cohérence visuelle est critique (personnages, produits, environnements spécifiques), quand vous animez un artwork ou une photo existante, ou quand vous voulez un contrôle plus prévisible sur le résultat. Les deux modes sont complémentaires.

Workflow pas à pas

1. Accéder au text-to-video

Connectez-vous à Runway. Naviguez vers « Apps View » et cherchez « Gen-4.5 » dans la barre de recherche. Vous pouvez aussi utiliser le sélecteur de modèle en mode « Tool » avec « Video » sélectionné. Assurez-vous que Gen-4.5 est actif (pas Gen-4 ou Gen-4 Turbo, qui nécessitent une image).

2. Rédiger le prompt

Pour le text-to-video, votre prompt doit décrire à la fois les éléments visuels ET le mouvement. C’est la différence avec l’image-to-video, où le prompt se concentre uniquement sur le mouvement (l’image fournit le visuel).

La structure recommandée par Runway :

[Caméra] shot of [sujet/objet] [action] in [environnement]. [Descriptions complémentaires]

Exemples concrets :

Slow dolly in on a woman reading a book in a sunlit cafe. Warm natural light through the window, shallow depth of field, steam rising from a coffee cup, cinematic color grading.

Aerial drone shot slowly descending over a dense fog-covered forest at sunrise. Golden light breaking through the mist, birds flying in the distance, hyperrealistic, 4K quality.

Close-up of hands molding clay on a potter's wheel, spinning slowly. Soft side lighting, earthy tones, macro detail on the texture of the clay, artisanal atmosphere.

Vous pouvez aussi écrire en langage naturel (phrases complètes) plutôt qu’en mots-clés séparés par des virgules. La documentation officielle indique que le langage naturel offre généralement plus de contrôle sur le résultat.

3. Configurer les paramètres

Durée : choisissez entre 2 et 10 secondes. Les prompts avec des actions séquentielles (« X happens, then Y happens ») bénéficient de durées plus longues (8-10 sec) pour que le modèle ait le temps d’exécuter toutes les actions naturellement.

Aspect ratio : 16:9 (paysage), 9:16 (portrait), 1:1 (carré). Si vous fournissez aussi une image d’entrée, le ratio s’adapte à l’image par défaut mais peut être modifié (ce qui recadrera l’image).

FPS : 24 fps (standard cinéma) ou 25 fps (standard broadcast européen). Réglable dans les paramètres avancés.

Seed : activer le « Fixed seed » et copier la seed d’une génération précédente permet de reproduire des résultats avec un mouvement et un style similaires. Utile pour itérer de manière contrôlée.

4. Générer et itérer

Cliquez sur « Generate ». Le temps de traitement varie de 30 secondes (Turbo) à 2-3 minutes (Gen-4.5). Une fois le clip généré, vous pouvez le télécharger, l’envoyer vers Aleph (édition in-video), l’utiliser comme entrée pour Act-Two (motion capture), l’étendre (extend), le retimer (ajuster la vitesse sans crédits), l’upscaler (4K), ou extraire une frame pour l’utiliser comme image d’entrée d’une nouvelle génération.

Si le résultat n’est pas satisfaisant, itérez sur le prompt. Commencez par ajuster un seul élément à la fois (d’abord le mouvement de caméra, puis l’éclairage, puis le style). Relisez notre guide des prompts Runway pour des techniques avancées.

Ce que Gen-4.5 fait le mieux en text-to-video

Physique réaliste

Gen-4.5 est le premier modèle Runway où les objets semblent avoir un poids réel. Les fluides coulent avec des dynamiques naturelles, les tissus réagissent au vent et à la gravité, les cheveux bougent de manière cohérente, et les collisions produisent des réactions plausibles. C’est un saut qualitatif par rapport à Gen-3 Alpha, où les mouvements pouvaient sembler « flottants ».

Adhérence au prompt

Gen-4.5 interprète les prompts complexes avec une précision nettement supérieure aux générations précédentes. Vous pouvez spécifier une chorégraphie de caméra détaillée, des compositions multi-éléments, un timing d’événements séquentiels et des changements atmosphériques subtils dans un seul prompt, et le modèle les exécutera fidèlement.

Le séquençage temporel fonctionne particulièrement bien : « X occurs, then Y occurs. Finally, Z occurs. » Gen-4.5 distribue les actions sur la durée du clip de manière cohérente. Vous pouvez même fournir des timestamps approximatifs pour un contrôle plus fin.

Large spectre stylistique

Gen-4.5 gère un spectre allant du photoréalisme cinématique à l’animation stylisée, en passant par l’illustration, le stop-motion, l’anime et l’art conceptuel, tout en maintenant une identité visuelle cohérente au sein de chaque style. C’est l’un des rares modèles capable de produire du contenu stylisé de qualité professionnelle, pas seulement du photoréalisme.

Personnages expressifs

Les personnages humains générés par Gen-4.5 affichent des émotions nuancées, des gestes naturels et des détails faciaux réalistes (pores de peau, reflets oculaires, micromouvements). C’est un progrès considérable par rapport aux générations précédentes où les humains IA avaient un aspect « uncanny valley » prononcé.

Coût en crédits du text-to-video

Modèle	Crédits/sec	Clip 5 sec	Clip 10 sec	~Clips avec 625 crédits (Standard)	~Clips avec 2 250 crédits (Pro)
Gen-4.5	25	125 crédits	250 crédits	2-5 clips	9-18 clips
Gen-3 Alpha	~10	50 crédits	100 crédits	6-12 clips	22-45 clips

Le text-to-video Gen-4.5 est le mode le plus coûteux de Runway. Un clip de 10 secondes consomme 250 crédits, soit 40 % du budget mensuel du plan Standard (625 crédits). Si vous comptez les itérations (2-3 essais en moyenne pour un bon résultat), un seul clip finalisé peut coûter 500 à 750 crédits.

Pour maîtriser les coûts, commencez les itérations avec Gen-3 Alpha (2x moins cher) ou en durée courte (5 sec), puis passez à Gen-4.5 en 10 sec pour le rendu final. Consultez notre page Runway prix pour les détails complets des plans et crédits.

Le plan Free ne donne pas accès au text-to-video Le plan Free de Runway inclut Gen-4 Turbo (image-to-video uniquement) et Gen-4 (text-to-image). Il ne donne pas accès à Gen-4.5 ni à Gen-3 Alpha pour la génération vidéo. Pour le text-to-video, un plan Standard minimum (12 $/mois) est requis.

Text-to-Video vs Image-to-Video : guide de choix

Critère	Text-to-Video	Image-to-Video
Image requise	Non	Oui (première frame)
Modèles disponibles	Gen-4.5, Gen-3 Alpha	Gen-4.5, Gen-4, Gen-4 Turbo, Gen-3 Alpha, Gen-3 Turbo
Contrôle visuel	Via le prompt uniquement	Image + prompt (plus prévisible)
Cohérence personnages	Variable (dépend du prompt)	Forte (ancré par l’image + References)
Prompt focus	Visuel + mouvement	Mouvement uniquement
Options économiques	Gen-3 Alpha (10 crédits/sec)	Gen-4 Turbo (5 crédits/sec)
Séquences complexes	Meilleur (pas contraint par une image fixe)	Limité par la composition de l’image d’entrée
Meilleur pour	B-roll, ambiances, concepts, effets, stock	Animation de photos/artworks, produit, personnages, storytelling

Le text-to-video offre plus de liberté créative (le modèle n’est pas contraint par une image d’entrée), ce qui lui permet de gérer des séquences d’actions complexes plus efficacement. L’image-to-video offre plus de contrôle et de prévisibilité (vous savez à quoi ressemblera la première frame). Les deux approches sont complémentaires et les professionnels alternent entre les deux selon le besoin de chaque plan.

Cas d’usage du text-to-video

B-roll et plans d’ambiance. Paysages, textures, scènes urbaines, éléments naturels (eau, feu, nuages, lumière). Le text-to-video excelle pour produire des plans d’illustration qui accompagnent un montage ou une narration.

Prototypage et prévisualisation. Tester des concepts visuels, des angles de caméra, des ambiances avant un tournage réel. Les agences et les réalisateurs utilisent le text-to-video pour créer des storyboards animés à moindre coût.

Effets visuels et scènes fantastiques. Explosions, transformations, créatures, environnements impossibles. Le text-to-video n’est pas contraint par la réalité d’une image d’entrée, ce qui le rend idéal pour les scènes créatives et fantaisistes.

Contenu marketing et publicité. Plans cinématiques pour des publicités, des vidéos de marque, des teasers. Le text-to-video permet de créer un premier draft complet à partir d’un brief créatif, que l’équipe affine ensuite avec Aleph ou en post-production.

Stock vidéo IA. Génération de clips de stock spécifiques à vos besoins, plutôt que de chercher dans des bibliothèques génériques. Un prompt précis produit un clip sur mesure en quelques minutes.

Art et expérimentation. Créations abstraites, visuels artistiques, exploration stylistique. Gen-4.5 gère un spectre de styles allant du photoréalisme à l’animation, en passant par l’aquarelle, le stop-motion et le pixel art.

Limites du text-to-video Runway

Durée limitée. 10 secondes maximum par génération. Pour des vidéos plus longues, il faut chaîner des clips (extraire la dernière frame → nouvelle génération) ou utiliser la fonction « Extend ». La cohérence entre clips chainés n’est pas toujours parfaite.

Coût élevé en Gen-4.5. À 25 crédits/seconde, un clip de 10 secondes coûte 250 crédits. Sur le plan Standard (625 crédits), vous ne pouvez produire que 2 à 3 clips finalisés par mois avec Gen-4.5. L’image-to-video via Gen-4 Turbo est 5 fois moins chère.

Pas d’audio natif. Le text-to-video génère de la vidéo muette. L’audio (voix, musique, effets sonores) doit être ajouté séparément via les outils audio de Runway (TTS, SFX) ou des outils tiers comme ElevenLabs ou Suno.

Raisonnement causal imparfait. Le modèle peut générer un effet avant sa cause (une porte qui s’ouvre avant que la poignée soit tournée), des objets qui disparaissent (perte de permanence) ou des actions qui réussissent systématiquement (un tir qui fait toujours mouche). Ce sont des limites partagées par tous les modèles de génération vidéo actuels.

Cohérence multi-shot limitée. Sans References ni image d’entrée, chaque génération text-to-video est indépendante. Un personnage décrit dans deux prompts différents n’aura pas la même apparence. Pour le storytelling, l’image-to-video avec References est nettement supérieur.

Rendu par défaut en 720p. Gen-4.5 produit des clips en 720p par défaut. L’upscaling 4K est disponible mais consomme des crédits supplémentaires (~2 crédits/seconde). Le 4K natif n’est pas encore disponible en text-to-video.

Optimiser votre workflow text-to-video

Commencez en 5 secondes, finalisez en 10. Un clip de 5 secondes coûte moitié moins. Testez la composition et le style en 5 sec, puis relancez en 10 sec quand le prompt est au point.

Itérez sur Gen-3 Alpha, finalisez sur Gen-4.5. Gen-3 Alpha à 10 crédits/sec est 2,5x moins cher. Utilisez-le pour affiner votre prompt, puis lancez le rendu final en Gen-4.5 pour la qualité maximale.

Utilisez le mode Explore (plan Unlimited). Sur Unlimited, Gen-4.5 text-to-video est disponible en mode Explore (générations illimitées, file basse priorité). C’est le meilleur moyen d’itérer sans compter les crédits.

Structurez votre prompt. Suivez la formule : [Caméra] + [Sujet + action] + [Environnement] + [Éclairage + style]. Chaque mot doit apporter une information visuelle concrète. Consultez le guide des prompts pour des exemples détaillés.

Chaînez pour créer des séquences. Extrayez la dernière frame d’une génération, utilisez-la comme image d’entrée d’une nouvelle génération (en image-to-video), et décrivez la suite de l’action. Assemblez dans l’éditeur vidéo intégré de Runway ou dans un éditeur externe.

Combinez avec Aleph. Quand un clip text-to-video est presque parfait mais a un défaut (objet indésirable, éclairage incorrect, arrière-plan à modifier), envoyez-le vers Aleph pour une retouche par prompt plutôt que de régénérer depuis zéro.

Questions fréquentes

Quel modèle Runway utiliser pour le text-to-video ?

Gen-4.5 est le meilleur modèle pour le text-to-video en termes de qualité (1er mondial au benchmark). Gen-3 Alpha est l’alternative moins chère (10 crédits/sec vs 25) mais avec une qualité inférieure. Gen-4 et Gen-4 Turbo ne supportent pas le text-to-video pur : ils nécessitent une image d’entrée. Si la qualité est votre priorité, Gen-4.5. Si le budget est serré, Gen-3 Alpha pour les itérations et Gen-4.5 pour les rendus finaux.

Combien coûte un clip text-to-video de 10 secondes ?

Avec Gen-4.5, un clip de 10 secondes coûte 250 crédits. Sur le plan Standard (625 crédits pour 12 $/mois), cela représente environ 4,80 $ par clip. Avec Gen-3 Alpha, le même clip coûte ~100 crédits, soit environ 1,92 $. En comptant les itérations (2-3 essais en moyenne), le coût réel d’un clip finalisé en Gen-4.5 se situe entre 500 et 750 crédits, soit 9 à 14 $. C’est la raison pour laquelle le plan Pro (2 250 crédits) ou Unlimited (Explore illimité) est recommandé pour un usage régulier du text-to-video Gen-4.5.

Le text-to-video Runway génère-t-il du son ?

Non. Le text-to-video Runway produit des clips vidéo muets. Runway propose des outils audio séparés (Text-to-Speech, Sound Effects, Speech-to-Speech) que vous pouvez utiliser pour ajouter de l’audio en post-production. Pour de la musique, vous pouvez utiliser Suno. Pour des voix off, ElevenLabs. C’est un point où Sora 2 a un avantage net avec son audio natif intégré (dialogue + effets sonores en une seule génération).

Peut-on créer des vidéos de plus de 10 secondes en text-to-video ?

Pas directement. Chaque génération text-to-video produit un clip de 2 à 10 secondes. Pour des vidéos plus longues, deux options. Premièrement, la fonction « Extend » sur Gen-3 Alpha (pas encore disponible sur Gen-4.5 au moment de la rédaction) permet d’allonger un clip existant. Deuxièmement, le chaînage de clips : extraire la dernière frame d’un clip et l’utiliser comme image d’entrée d’un nouveau clip (en image-to-video cette fois), puis assembler les clips dans un éditeur. Avec Gen-4.5 et les References pour la cohérence des personnages, cette méthode produit des séquences visuellement cohérentes.

Le text-to-video est-il meilleur que l’image-to-video ?

Ce ne sont pas des modes concurrents, mais complémentaires. Le text-to-video offre plus de liberté créative (pas de contrainte d’image d’entrée) et gère mieux les séquences complexes. L’image-to-video offre plus de contrôle et de prévisibilité (vous savez exactement à quoi ressemblera la première frame) et donne accès à des modèles moins chers (Gen-4 Turbo à 5 crédits/sec). Pour le prototypage, le B-roll et les concepts, text-to-video. Pour les produits, les personnages cohérents et l’animation de visuels existants, image-to-video.