Audio-Visual Learning (Apprentissage Audio-Visuel)

L’audio-visual learning est un sous-domaine du multimodal learning qui entraîne des modèles à exploiter conjointement les modalités audio (parole, sons, musique) et visuelle (images, vidéo) pour résoudre des tâches que ni l’audio seul ni la vision seule ne peuvent résoudre efficacement. L’idée fondamentale : dans le monde réel, son et image sont naturellement corrélés (une guitare produit un son de guitare, les lèvres bougent quand quelqu’un parle) et cette corrélation constitue un signal de supervision puissant pour l’apprentissage de représentations.

Définition: Apprentissage exploitant conjointement les modalités audio et visuelle
Tâches principales: Reconnaissance vocale audiovisuelle (AVSR), localisation de sources sonores, séparation de parole, reconnaissance d’émotions, génération audio-visuelle
Corrélation clé: Correspondance naturelle temporelle et sémantique entre son et image
Modèles notables: ImageBind (Meta), CAV2vec (ICLR 2025), AV-HuBERT, Whisper (audio seul), Gemini (multimodal natif)
Datasets: LRS2, LRS3, AudioSet, VGGSound, Kinetics-400

Pourquoi combiner audio et vision ?

L’humain est naturellement audiovisuel. Quand vous regardez quelqu’un parler dans un environnement bruyant, vous lisez inconsciemment ses lèvres pour compléter les mots que vous n’entendez pas clairement. Ce phénomène, connu sous le nom d’effet McGurk, montre que le cerveau fusionne audio et vision en permanence pour construire une perception cohérente du monde.

L’audio-visual learning cherche à doter les machines de cette même capacité de fusion. Les bénéfices sont multiples :

Robustesse. Si l’audio est bruité (environnement bruyant, mauvaise connexion), l’information visuelle (mouvements des lèvres, gestes) compense. Si la vision est dégradée (éblouissement, occultation), l’audio fournit un contexte complémentaire. Cette redondance cross-modale rend le système plus fiable que les approches unimodales.

Désambiguïsation. Certaines informations n’existent que dans une modalité. Le sarcasme est difficilement détectable à partir du texte seul, mais le ton de la voix (audio) combiné à l’expression faciale (vision) le rend évident. De même, identifier qui parle dans une scène avec plusieurs personnes nécessite de corréler les mouvements de lèvres (vision) avec le signal audio.

Supervision auto-supervisée. La correspondance naturelle entre audio et vidéo dans les données non annotées fournit un signal de supervision gratuit. Le modèle peut apprendre que « quand on voit une guitare dans la vidéo, on entend un son de guitare » sans aucune annotation humaine. C’est un levier puissant pour le pré-entraînement à grande échelle.

Tâches de l’audio-visual learning

Reconnaissance vocale audiovisuelle (AVSR)

La tâche la plus étudiée. Le modèle transcrit la parole en texte en utilisant à la fois le signal audio et les mouvements des lèvres du locuteur (lip reading). L’ajout de la modalité visuelle réduit significativement le taux d’erreur (Word Error Rate, WER), surtout dans les environnements bruyants. Les datasets LRS2 et LRS3 (Lip Reading Sentences) sont les benchmarks de référence.

CAV2vec (ICLR 2025) est un travail récent qui entraîne des représentations audio-visuelles robustes aux corruptions des deux modalités (bruit audio, occultation visuelle) via un framework de prédiction corrompue enseignant-élève. Il améliore significativement la robustesse de l’AVSR dans les environnements dégradés.

Localisation de sources sonores

Étant donné une vidéo avec un son, localiser visuellement l’objet qui produit le son. Par exemple, dans une vidéo de concert, identifier quel musicien joue la mélodie audible à un instant donné. Cette tâche exploite la corrélation temporelle entre les mouvements visuels et les signaux audio.

Séparation de sources audio (cocktail party problem)

Dans un environnement où plusieurs personnes parlent simultanément (le « problème du cocktail party »), l’information visuelle (quel visage correspond à quelle voix) permet de séparer les signaux audio des différents locuteurs. Le modèle apprend que les mouvements de lèvres du locuteur A corrèlent avec une composante spécifique du signal audio mixé.

Reconnaissance d’émotions multimodale

Détecter l’état émotionnel d’une personne en combinant l’expression faciale (vision), le ton de la voix (audio) et éventuellement la posture corporelle (vision). Les datasets comme CREMA-D fournissent des vidéos annotées avec des labels émotionnels. Les modèles multimodaux surpassent systématiquement les approches unimodales sur cette tâche, car les émotions se manifestent différemment dans chaque modalité.

Localisation d’événements audiovisuels

Identifier et localiser temporellement les événements dans une vidéo en s’appuyant sur les deux modalités. Par exemple, détecter le moment exact où un verre se brise en corrélant le son de bris (audio) avec le mouvement de chute (vision). C’est un cas particulier de video captioning dense où l’audio fournit des indices supplémentaires.

Génération audio-visuelle

Générer de l’audio à partir de la vidéo (par exemple, recréer le son d’un piano en observant les doigts sur les touches) ou générer de la vidéo à partir de l’audio (animer un visage pour synchroniser les mouvements de lèvres avec un enregistrement vocal). Les modèles de lip sync et de talking head utilisent cette capacité pour créer des avatars réalistes.

Architectures techniques

Encodeurs spécialisés par modalité

L’architecture standard utilise deux encodeurs séparés, un pour chaque modalité :

Encodeur audio. Le signal audio est d’abord converti en spectrogramme (représentation temps-fréquence), qui est traité comme une « image » par un CNN 2D ou un Transformer. Whisper (OpenAI) utilise cette approche spectrogramme + Transformer. D’autres méthodes traitent directement la forme d’onde audio brute (wav2vec 2.0, HuBERT).

Encodeur visuel. Un Vision Transformer ou CNN extrait les features visuelles de chaque frame vidéo. Pour la lecture labiale, l’encodeur se concentre sur la région de la bouche, souvent via un détecteur de visage préalable qui recadre la zone d’intérêt.

Stratégies de fusion

Les deux flux d’information doivent être fusionnés pour produire une représentation conjointe. Les approches sont similaires à celles du multimodal learning général :

Early fusion (somme ou concaténation). Les tokens audio et visuels sont combinés en une seule séquence dès l’entrée, puis traités par un Transformer unifié. Simple mais coûteux computationnellement.

Cross-attention. Chaque modalité sert de requête pour l’autre. Les features audio « interrogent » les features visuelles (et inversement) via des couches de cross-attention. C’est l’approche la plus courante pour la fusion intermédiaire.

Late fusion. Chaque modalité est traitée indépendamment jusqu’à une couche de décision finale qui combine les sorties. Robuste aux modalités manquantes mais ne capture pas les interactions fines.

Co-attention hiérarchique. Les features sont fusionnées à plusieurs niveaux de la hiérarchie du réseau, permettant au modèle de capturer les corrélations audio-visuelles à différentes échelles (bas niveau : synchronisation lèvres-voix ; haut niveau : correspondance sémantique objet-son).

ImageBind : un espace d’embedding unifié ImageBind (Meta, 2023) va au-delà de la fusion bimodale en créant un espace d’embedding partagé entre six modalités (image, texte, audio, depth, thermal, IMU). Le principe : puisque les images sont naturellement appariées avec chaque autre modalité (image+texte via CLIP, image+audio via vidéo, image+depth via capteurs), utiliser l’image comme « ancre » pour aligner toutes les modalités dans un même espace. Un son de guitare et une photo de guitare se retrouvent proches dans cet espace, sans jamais avoir été appariés directement pendant l’entraînement.

Datasets et benchmarks

Dataset	Contenu	Taille	Tâche principale
LRS2 / LRS3	Vidéos de parole (BBC, TED)	~800h (LRS3)	AVSR, lip reading
AudioSet	Clips YouTube avec labels audio	~2 M clips (10 s chacun)	Classification audio, localisation sonore
VGGSound	Clips YouTube avec sources sonores visibles	~200 000 clips	Localisation de sources sonores
Kinetics-400/600/700	Clips d’actions humaines	~650 000 clips	Reconnaissance d’actions audio-visuelles
CREMA-D	Vidéos d’acteurs exprimant des émotions	7 442 clips	Reconnaissance d’émotions
AVA-ActiveSpeaker	Vidéos de films avec annotation de locuteurs actifs	~262 clips	Détection de locuteur actif

Modèles et travaux clés

AV-HuBERT (Meta, 2022). Extension audiovisuelle de HuBERT (Hidden-Unit BERT) pour l’apprentissage auto-supervisé de représentations de parole. Pré-entraîné sur des vidéos de parole non annotées en prédisant des unités discrètes masquées à partir du contexte audiovisuel. Atteint des performances de pointe en AVSR et lip reading.

CAV2vec (ICLR 2025). Framework de représentation audiovisuelle robuste aux corruptions. Le modèle apprend à prédire des cibles « propres » à partir d’entrées audio-visuelles corrompues (bruit, occultation). Améliore significativement la robustesse de l’AVSR dans les environnements dégradés, sans module externe ni changement architectural.

ImageBind (Meta, 2023). Modèle d’alignement multi-modal qui crée un espace d’embedding partagé pour six modalités en utilisant l’image comme ancre. Permet des tâches cross-modales jamais vues à l’entraînement (chercher des images par audio, par exemple).

Whisper (OpenAI, 2023). Bien que principalement audio, Whisper a établi un nouveau standard en reconnaissance vocale et constitue souvent l’encodeur audio de référence dans les systèmes audio-visuels modernes.

Gemini (Google). Gemini 3.1 Pro est l’un des rares modèles commerciaux à traiter nativement texte, image, audio et vidéo dans une seule architecture. Il peut analyser des vidéos avec leur piste audio et répondre à des questions nécessitant les deux modalités.

Applications concrètes

Visioconférence et transcription. L’AVSR améliore la transcription en temps réel des visioconférences en exploitant la vidéo des participants pour compléter l’audio souvent dégradé par le réseau. Microsoft Teams et d’autres outils intègrent progressivement cette capacité.

Accessibilité. La lecture labiale automatique assiste les personnes malentendantes en générant des sous-titres plus précis grâce à l’information visuelle. Combinée avec l’image captioning, elle crée des descriptions multimodales enrichies.

Surveillance et sécurité. Détecter des événements sonores (bris de glace, cri, coup de feu) et les localiser dans le flux vidéo. La fusion audiovisuelle réduit les faux positifs par rapport à la détection audio ou visuelle seule.

Production média et divertissement. Synchronisation automatique lèvres-voix pour le doublage, création de talking heads pour les avatars numériques, séparation de pistes audio dans les vidéos musicales, et bruitage automatique de séquences vidéo.

Robotique. Les robots qui opèrent dans des environnements réels bénéficient de la fusion audiovisuelle pour localiser les sources sonores (d’où vient l’appel ?), comprendre les instructions vocales en environnement bruité, et interpréter les situations sociales (qui parle à qui ?).

Véhicules autonomes. La détection de sirènes d’urgence (audio) combinée à la localisation visuelle du véhicule d’urgence améliore la sécurité. De même, la détection de klaxons avec localisation spatiale aide à identifier les dangers.

L’apprentissage auto-supervisé audiovisuel

L’un des atouts majeurs de l’audio-visual learning est la possibilité d’exploiter la correspondance naturelle entre audio et vidéo comme signal de supervision, sans annotations humaines. Cette approche auto-supervisée est particulièrement puissante car les données audiovisuelles sont massivement disponibles (vidéos YouTube, podcasts filmés, conférences) et la corrélation audio-vidéo fournit un signal riche et gratuit.

Correspondance audiovisuelle. Le modèle apprend à déterminer si un segment audio et un segment vidéo proviennent de la même source. C’est un objectif contrastif : les paires audio-vidéo positives (issues de la même vidéo) doivent être proches dans l’espace d’embedding, les paires négatives (issues de vidéos différentes) doivent être éloignées. Cet objectif, inspiré de CLIP pour le texte-image, produit des représentations audiovisuelles transférables.

Prédiction audio-visuelle masquée. Inspiré de BEiT et MAE, le modèle masque des portions de l’audio ou de la vidéo et apprend à les reconstruire en s’appuyant sur l’autre modalité. AV-HuBERT utilise cette approche : il masque des segments audiovisuels et prédit des unités discrètes (clusters de features) à partir du contexte non masqué. Cette méthode produit des représentations particulièrement adaptées à la reconnaissance vocale.

Synchronisation temporelle. Le modèle apprend à déterminer si un clip audio est temporellement aligné avec un clip vidéo, ou s’il est décalé. Cette tâche force le modèle à capturer des correspondances temporelles fines (mouvement de lèvres synchronisé avec la voix, geste synchronisé avec un son d’impact).

Défis et directions de recherche

Synchronisation temporelle. L’audio et la vidéo ne sont pas toujours parfaitement synchronisés (latence réseau, décalage de capture). Les modèles doivent être robustes à ces désalignements temporels, ce qui nécessite des mécanismes d’attention temporelle flexibles.

Modalités manquantes ou corrompues. En situation réelle, une modalité peut être absente (vidéo sans audio, audio sans vidéo) ou sévèrement dégradée. Le modèle doit fonctionner en mode dégradé sans s’effondrer. CAV2vec (ICLR 2025) aborde ce défi avec l’entraînement sur des entrées corrompues.

Hétérogénéité des données. L’audio est un signal 1D temporel continu, la vidéo est une séquence de grilles 2D. Aligner ces représentations de natures très différentes dans un espace commun reste un défi technique fondamental.

Passage à l’échelle. Les modèles audio-visuels sont computationnellement lourds car ils traitent deux flux de données riches simultanément. L’optimisation de l’inférence et l’entraînement efficace sur de grands datasets audiovisuels restent des problèmes ouverts.

Interprétabilité. Comprendre comment un modèle fusionne les informations audio et visuelles pour prendre ses décisions est difficile. Les techniques d’interprétabilité (cartes d’attention, probing) sont adaptées du cas unimodal mais ne capturent pas pleinement la dynamique de la fusion cross-modale.

L’audio-visual learning converge vers les LLM multimodaux La tendance est à l’intégration de l’audio dans les VLM existants. GPT-5.4 en mode voice, Gemini avec audio natif, et des modèles open source comme Video-LLaMA traitent conjointement texte, image, audio et vidéo. L’audio-visual learning, historiquement un domaine de niche, devient une composante standard des modèles de fondation multimodaux.

Questions fréquentes sur l’audio-visual learning

Quelle est la différence entre audio-visual learning et multimodal learning ?

Le multimodal learning est le domaine général qui combine n’importe quelles modalités (texte, image, audio, vidéo, capteurs, etc.). L’audio-visual learning est un sous-domaine spécifique qui se concentre sur la combinaison des modalités audio et visuelle. C’est l’un des axes les plus étudiés du multimodal learning car audio et vidéo sont naturellement corrélés dans les données du monde réel.

Pourquoi la lecture labiale aide-t-elle la reconnaissance vocale ?

Les mouvements des lèvres et de la mâchoire sont directement corrélés avec les phonèmes produits. Quand l’audio est bruité ou partiellement inaudible, l’information visuelle des lèvres fournit des indices complémentaires qui permettent de désambiguïser les sons confondus. Des études montrent que l’ajout de la modalité visuelle peut réduire le taux d’erreur de transcription de 30 à 50 % dans les environnements très bruyants.

Les assistants vocaux utilisent-ils l’audio-visual learning ?

Les assistants vocaux classiques (Alexa, Siri) sont principalement audio. Cependant, les assistants avec caméra (Echo Show, Meta Portal) commencent à intégrer des capacités audiovisuelles. Les LLM multimodaux comme GPT-5.4 en mode voice et Gemini traitent nativement audio et vidéo, ouvrant la voie à des assistants véritablement audiovisuels capables de voir et entendre simultanément.

Qu’est-ce qu’ImageBind et pourquoi est-il important ?

ImageBind (Meta, 2023) est un modèle qui crée un espace d’embedding partagé entre six modalités (image, texte, audio, profondeur, thermal, IMU) en utilisant l’image comme modalité ancre. Son importance : il montre qu’on peut aligner des modalités qui n’ont jamais été directement appariées pendant l’entraînement. Un son de chien et une photo de chien se retrouvent proches dans l’espace d’embedding, même si le modèle n’a jamais vu la paire (son de chien, photo de chien) pendant l’entraînement. Cela ouvre la voie à des systèmes multimodaux universels.

Quels sont les meilleurs datasets pour débuter en audio-visual learning ?

Pour la reconnaissance vocale audiovisuelle, LRS3 (800 heures de vidéos TED) est le standard. Pour la localisation de sources sonores, VGGSound (200 000 clips avec sources sonores visibles) est un bon point de départ. Pour la classification audio générale, AudioSet (2 millions de clips YouTube) est la référence, bien qu’il ne soit pas strictement audiovisuel. Pour la reconnaissance d’émotions, CREMA-D offre un dataset compact et bien annoté.