Video Captioning (Sous-titrage Automatique de Vidéos)

Le video captioning est la tâche de génération automatique de descriptions textuelles en langage naturel à partir d’une séquence vidéo. Contrairement à l’image captioning qui traite une image statique, le video captioning doit comprendre la dynamique temporelle (actions, événements, transitions) en plus du contenu visuel spatial (objets, scènes, attributs). C’est l’une des tâches les plus exigeantes du multimodal learning, combinant vision par ordinateur, traitement de séquences temporelles et génération de langage naturel.

Définition: Génération automatique de descriptions textuelles pour des séquences vidéo
Variantes: Video captioning (description globale), Dense video captioning (descriptions par segment temporel)
Pipeline: Encodeur visuel (spatial + temporel) → Fusion → Décodeur de langage
Datasets: MSR-VTT, MSVD, ActivityNet Captions, YouCook2, Video-MME
Métriques: BLEU, METEOR, CIDEr, ROUGE-L
Modèles: Video-ChatGPT, Gemini 3.1 Pro, Qwen2.5-VL, Video Swin Transformer

Pourquoi le video captioning est plus difficile que l’image captioning

Passer de l’image à la vidéo ajoute plusieurs couches de complexité que les modèles doivent gérer simultanément.

La dimension temporelle. Une vidéo est une séquence de frames. Comprendre « un homme lance un ballon » nécessite d’observer le mouvement du bras sur plusieurs frames, pas juste une image figée. Le modèle doit capturer les dynamiques temporelles : vitesse, direction, séquence d’actions, causalité.

La redondance visuelle. Une vidéo de 30 secondes à 30 fps contient 900 frames. La majorité de ces frames sont visuellement quasi identiques (entre deux frames consécutives, l’image change à peine). Le modèle doit extraire les informations pertinentes sans se noyer dans la redondance. Les stratégies d’échantillonnage de frames (sampling) sont donc cruciales.

Les événements multiples. Une vidéo contient souvent plusieurs événements successifs ou simultanés. « Une femme entre dans la pièce, s’assoit, puis ouvre un livre » est une séquence de trois actions distinctes. Le modèle doit les identifier, les ordonner et les décrire de manière cohérente.

La variabilité de durée. Les vidéos vont de quelques secondes (clips courts) à plusieurs heures (conférences, films). Les architectures doivent s’adapter à cette variabilité sans exploser en coût computationnel.

Le lien audio-visuel. Contrairement aux images, les vidéos ont souvent une piste audio qui fournit du contexte supplémentaire (parole, musique, bruits ambiants). Intégrer cette modalité via l’audio-visual learning enrichit les descriptions mais complexifie l’architecture.

Les types de video captioning

Video captioning classique

Le modèle produit une seule description résumant l’ensemble de la vidéo. Par exemple, pour un clip de 10 secondes : « A man is playing guitar on a stage. » C’est la forme la plus simple, évaluée sur des datasets comme MSVD et MSR-VTT.

Dense video captioning

Le modèle détecte les différents événements dans la vidéo, les localise temporellement (timestamp de début et de fin), et génère une description pour chacun. Pour une vidéo de cuisine de 5 minutes, le résultat pourrait être :

Début	Fin	Description
0:00	0:45	La personne coupe des légumes sur une planche en bois
0:45	1:30	Elle fait chauffer de l’huile dans une poêle
1:30	3:00	Les légumes sont sautés dans la poêle à feu vif
3:00	4:30	Elle ajoute une sauce et mélange les ingrédients
4:30	5:00	Le plat est servi dans une assiette blanche

Le dense video captioning est évalué sur ActivityNet Captions et YouCook2. Il est nettement plus utile en pratique que le captioning global car il permet la navigation temporelle dans les vidéos longues.

Video Question Answering (VideoQA)

Variante interactive où le modèle répond à des questions spécifiques sur la vidéo : « Combien de fois le ballon est-il passé ? », « Que fait la personne après avoir ouvert la porte ? ». C’est la forme la plus naturelle d’interaction avec du contenu vidéo et la tâche où les VLM excellent.

Architectures techniques

L’architecture encodeur-décodeur

Le pipeline standard du video captioning suit la structure encodeur-décodeur, avec un encodeur en deux parties :

Encodeur spatial. Extrait les features visuelles de chaque frame individuellement. Historiquement un CNN (ResNet, Inception), maintenant typiquement un Vision Transformer (ViT, CLIP ViT). Produit un vecteur de features par frame.

Encodeur temporel. Modélise les relations entre frames. Trois approches coexistent : les réseaux récurrents (LSTM, GRU) qui traitent les features frame par frame, les CNN 3D (C3D, I3D, S3D) qui traitent des blocs spatio-temporels de frames, et les Transformers temporels avec attention sur la séquence de frames. Les Transformers dominent désormais grâce à leur capacité à capturer les dépendances longues.

Décodeur de langage. Génère le texte mot par mot, conditionné sur les features spatio-temporelles. Historiquement un LSTM avec attention, maintenant un décodeur Transformer autorégressif ou un LLM complet.

L’attention dans le video captioning

L’attention est encore plus critique en vidéo qu’en image. Le modèle doit décider, à chaque mot généré, quelles frames et quelles régions sont pertinentes. L’attention temporelle sélectionne les frames pertinentes (ignorer les frames de transition, se concentrer sur les moments d’action). L’attention spatiale sélectionne les régions pertinentes dans chaque frame (se concentrer sur l’acteur principal plutôt que sur l’arrière-plan). L’attention spatio-temporelle combine les deux pour un ciblage fin.

VLM pour la compréhension vidéo

La génération actuelle utilise des Vision Language Models capables de traiter la vidéo nativement. Gemini 3.1 Pro accepte des vidéos en entrée et peut les analyser, les résumer et répondre à des questions sur leur contenu. Qwen2.5-VL utilise des couches convolutives 3D pour agréger les features de frames vidéo. Video-ChatGPT connecte un encodeur vidéo à un LLM pour le captioning et le QA conversationnel.

L’avantage des VLM : ils gèrent naturellement les requêtes en langage naturel (« Résume cette vidéo en 3 phrases », « Que se passe-t-il entre la 2e et la 5e minute ? ») et produisent des descriptions plus riches et contextualisées que les modèles spécialisés.

L’échantillonnage de frames est critique Un modèle ne peut pas traiter toutes les frames d’une vidéo (trop coûteux). Les stratégies d’échantillonnage incluent : l’échantillonnage uniforme (1 frame sur N), l’échantillonnage par scène (détecter les changements de scène et prendre une frame par scène), et l’échantillonnage adaptatif (sélectionner les frames les plus informatives selon un critère de diversité ou de saillance). Le choix de la stratégie a un impact direct sur la qualité des descriptions.

Datasets de référence

Dataset	Vidéos	Durée type	Descriptions	Tâche
MSVD	1 970	10-25 s	~70 000	Captioning global (clips courts)
MSR-VTT	10 000	10-30 s	200 000	Captioning global (diversifié)
ActivityNet Captions	20 000	2-10 min	100 000	Dense captioning (activités humaines)
YouCook2	2 000	3-15 min	15 400	Dense captioning (cuisine)
Charades	9 848	~30 s	27 847	Captioning + compréhension d’activités
Video-MME	900	Variable	Variable	Benchmark VLM (raisonnement temporel)

MSVD et MSR-VTT sont les benchmarks historiques pour le captioning de clips courts. ActivityNet Captions est la référence pour le dense video captioning de vidéos longues. Video-MME est un benchmark récent conçu pour évaluer les VLM sur la compréhension vidéo, avec 5 niveaux de difficulté.

Métriques d’évaluation

Les métriques sont les mêmes que pour l’image captioning (BLEU, METEOR, CIDEr, ROUGE-L), mais avec des considérations supplémentaires pour le dense captioning.

Pour le dense video captioning, on évalue à la fois la qualité de la localisation temporelle (les timestamps des événements détectés sont-ils corrects ?) et la qualité des descriptions (les légendes sont-elles fidèles ?). La métrique standard combine un seuil de temporal IoU (chevauchement temporel entre le segment prédit et le segment réel) avec les métriques de captioning.

Comme pour l’image captioning, les métriques automatiques corrèlent imparfaitement avec le jugement humain. Le problème est amplifié en vidéo car il existe souvent plusieurs façons valides de décrire les mêmes événements, et les descriptions de référence ne couvrent pas toutes les perspectives possibles.

Applications concrètes

Accessibilité. Générer des audiodescriptions automatiques pour les personnes malvoyantes. Le dense video captioning est particulièrement utile ici, car il décrit les événements au fil du temps plutôt qu’un résumé global.

Recherche et indexation vidéo. Les descriptions textuelles permettent de chercher dans des archives vidéo par mots-clés (« montre-moi les moments où un but est marqué », « trouve les séquences de préparation de pâtes »). Les plateformes comme YouTube utilisent des formes de video captioning pour l’indexation et la recommandation.

Surveillance et sécurité. Décrire automatiquement les événements dans des flux de surveillance : « une personne entre par la porte arrière à 23:15 », « un véhicule non identifié stationne devant le bâtiment pendant 45 minutes ». Le dense captioning avec timestamps est particulièrement pertinent pour l’analyse a posteriori d’incidents.

Résumé de vidéos. Condenser une vidéo longue (conférence, réunion, cours en ligne) en un résumé textuel structuré. Les VLM modernes comme Gemini 3.1 Pro excellent dans cette tâche grâce à leur longue fenêtre de contexte.

Éducation et formation. Annoter automatiquement des vidéos pédagogiques : identifier les étapes d’une procédure, les concepts expliqués, les démonstrations pratiques. YouCook2 est un exemple de dataset orienté vers ce cas d’usage (vidéos de recettes de cuisine annotées par étapes).

Génération de contenu. Créer automatiquement des sous-titres descriptifs pour les réseaux sociaux, des résumés de matchs sportifs, ou des descriptions de produits à partir de vidéos de démonstration.

État de l’art et tendances

Le video captioning a connu trois grandes phases d’évolution architecturale.

Phase 1 : CNN + LSTM (2015-2019). Les premières approches utilisaient un CNN 2D (VGG, ResNet) pour extraire les features de chaque frame, un CNN 3D (C3D) pour les features spatio-temporelles, puis un LSTM comme décodeur de texte. Cette combinaison, bien qu’efficace pour les clips courts, peinait avec les dépendances temporelles longues et produisait des descriptions génériques.

Phase 2 : Transformers (2020-2023). L’adoption des Transformers pour l’encodage temporel (remplacement des LSTM) et la génération de texte a significativement amélioré la qualité. Video Swin Transformer (Microsoft) a étendu le mécanisme de fenêtres décalées de Swin Transformer à la dimension temporelle, atteignant des résultats de pointe sur Kinetics-400 et Kinetics-600 pour la reconnaissance d’actions. Les architectures Transformer capturent mieux les dépendances temporelles longues et permettent la parallélisation de l’entraînement.

Phase 3 : VLM vidéo (2024-présent). Les VLM modernes traitent la vidéo comme une extension naturelle de leur capacité image. Gemini 3.1 Pro traite des heures de vidéo grâce à sa fenêtre de contexte de 1 M tokens. Qwen2.5-VL utilise des convolutions 3D pour agréger les frames avant de les injecter dans le LLM. Video-ChatGPT et Video-LLaMA connectent des encodeurs vidéo spécialisés à des LLM pour le captioning et le QA conversationnel. Cette approche surpasse les modèles spécialisés en flexibilité et en richesse descriptive.

La tendance vers les modèles unifiés (comme Emu3, publié dans Nature en janvier 2026) qui traitent texte, image et vidéo sous un seul objectif autoregressif promet de simplifier encore les architectures de video captioning.

Défis actuels

Compréhension temporelle fine. Les modèles actuels captent les actions principales mais peinent avec les nuances temporelles : la distinction entre « avant » et « après », la causalité (« il est tombé parce que le sol était mouillé »), et les événements simultanés. Les benchmarks comme Video-MME évaluent spécifiquement cette capacité.

Vidéos longues. Traiter des vidéos de plus de quelques minutes reste un défi computationnel. Même avec un échantillonnage de frames, une vidéo de 10 minutes génère des milliers de tokens visuels. Les modèles avec très long contexte (Gemini avec 1 M tokens) commencent à adresser ce problème, mais le coût reste élevé.

Hallucinations temporelles. Les modèles inventent parfois des événements qui ne se produisent pas dans la vidéo, ou confondent l’ordre des événements. Ce problème est plus prononcé que dans l’image captioning car la dimension temporelle ajoute des possibilités d’erreur.

Coût d’annotation. Annoter des vidéos avec des descriptions temporellement alignées est extrêmement coûteux (5 à 10× le coût de l’annotation d’images). Les datasets de video captioning sont donc beaucoup plus petits que les datasets d’image captioning, ce qui limite l’entraînement supervisé.

Multilingue. Comme pour l’image captioning, la quasi-totalité des datasets et modèles sont en anglais. Le video captioning en français ou dans d’autres langues reste sous-développé.

En pratique : utilisez un VLM Pour du video captioning en production, les VLM comme Gemini 3.1 Pro (vidéo native) ou Qwen2.5-VL offrent la meilleure qualité sans nécessiter d’entraînement spécialisé. Envoyez la vidéo (ou les frames extraites) avec un prompt instructionnel (« Décris cette vidéo en détail, étape par étape ») et laissez le modèle générer. Pour du traitement à grande échelle, un modèle spécialisé plus léger sera plus économique.

Questions fréquentes sur le video captioning

Quelle est la différence entre video captioning et dense video captioning ?

Le video captioning classique produit une seule description pour l’ensemble de la vidéo (« Un homme joue de la guitare sur scène »). Le dense video captioning détecte les différents événements dans la vidéo, les localise temporellement (avec timestamps de début et de fin), et génère une description pour chacun. Le dense captioning est plus utile en pratique car il permet la navigation temporelle et une compréhension fine des vidéos longues.

Les VLM comme Gemini ou GPT-5.4 peuvent-ils faire du video captioning ?

Oui. Gemini 3.1 Pro et Qwen2.5-VL acceptent des vidéos en entrée nativement et peuvent les décrire, les résumer et répondre à des questions sur leur contenu. GPT-5.4 et Claude Opus 4.6 traitent les vidéos via des frames extraites envoyées comme images séquentielles. Les VLM généralistes produisent des descriptions plus riches que les modèles spécialisés, mais à un coût computationnel plus élevé.

Quel dataset utiliser pour entraîner un modèle de video captioning ?

Pour du captioning de clips courts (10-30 secondes), MSR-VTT (10 000 vidéos, 200 000 descriptions) est le benchmark standard avec la plus grande diversité. Pour du dense video captioning de vidéos longues, ActivityNet Captions (20 000 vidéos, 2-10 minutes) est la référence. Pour un domaine spécialisé (cuisine, sport, médical), il faudra probablement créer votre propre dataset ou fine-tuner un VLM pré-entraîné sur vos données.

Comment le video captioning gère-t-il les vidéos très longues ?

Trois stratégies principales. L’échantillonnage de frames réduit la vidéo à un nombre gérable de frames (typiquement 1 frame par seconde ou par changement de scène). La segmentation temporelle découpe la vidéo en segments courts traités indépendamment (dense captioning). Les modèles à très long contexte (Gemini, 1 M tokens) peuvent traiter des heures de vidéo directement, mais le coût est élevé. En pratique, la combinaison segmentation + captioning par segment est le compromis le plus courant.

Le video captioning peut-il intégrer l’audio ?

Oui, et c’est un axe de recherche actif. L’audio-visual learning permet d’enrichir les descriptions en intégrant la parole (ce qui est dit), la musique (ambiance) et les sons environnementaux (bruits de moteur, applaudissements). Des modèles comme Video-LLaMA et certaines configurations de Gemini traitent conjointement la vidéo et l’audio. Les descriptions multimodales (audio + vidéo) sont plus riches et plus précises que celles basées uniquement sur la vidéo.