Visual Grounding (Ancrage Visuel)

Le visual grounding est la tâche qui consiste à localiser dans une image la ou les régions correspondant à une description en langage naturel. Donné le texte « le chat noir assis sur le canapé rouge », le modèle doit produire une bounding box (ou un masque de segmentation) encadrant précisément ce chat. C’est un problème fondamental d’alignement cross-modal entre vision et langage, au cœur des applications robotiques, d’accessibilité et d’agents interactifs.

Synonymes: Referring Expression Comprehension (REC), Phrase Grounding, Phrase Localization
Entrée: Image + expression textuelle décrivant un objet ou une région
Sortie: Bounding box (REC) ou masque de segmentation (RES/RIS)
Datasets clés: RefCOCO, RefCOCO+, RefCOCOg, Flickr30K Entities, Visual Genome
Métrique: Precision@0.5 (IoU ≥ 0,5 entre prédiction et vérité terrain)
Modèles récents: OneRef (NeurIPS 2024), SimVG, HiVG, Qwen2.5-VL, Kosmos-2

Définition et enjeux

Le visual grounding simule une interaction humaine fondamentale : quand quelqu’un vous dit « passe-moi le livre bleu sur l’étagère du haut », vous devez comprendre la description textuelle, scanner la scène visuelle, et identifier l’objet précis parmi tous les objets visibles. C’est cette capacité de référence linguistique que le visual grounding cherche à reproduire chez les machines.

Formellement, étant donné une image I et une expression textuelle T décrivant une entité dans l’image, le modèle doit prédire la région R (bounding box ou masque) qui correspond à cette entité. La difficulté vient de l’ambiguïté : une image peut contenir plusieurs objets du même type, et c’est l’expression textuelle (ses attributs, ses relations spatiales, son contexte) qui permet de désambiguïser.

C’est un problème plus fin que la détection d’objets classique. Un détecteur d’objets trouve tous les « chats » dans une image. Le visual grounding trouve « le chat qui est à gauche de la fenêtre » parmi les trois chats de la scène. Il nécessite une compréhension conjointe du langage (attributs, relations) et de la vision (localisation, apparence).

Les variantes du visual grounding

Referring Expression Comprehension (REC)

La forme la plus classique : une expression textuelle décrit un seul objet, le modèle doit le localiser par une bounding box. Exemples : « the woman in the red dress », « the tallest building on the left ». Les datasets RefCOCO, RefCOCO+ et RefCOCOg sont les benchmarks standards.

Phrase Grounding (PG)

Variante où le texte est une phrase complète contenant plusieurs entités, et le modèle doit localiser chacune. Par exemple, pour « A man is throwing a ball to a dog », le modèle doit produire une box pour « man », une pour « ball » et une pour « dog ». Flickr30K Entities est le benchmark de référence.

Referring Expression Segmentation (RES)

Au lieu d’une bounding box, le modèle produit un masque de segmentation pixel-précis pour l’objet décrit. C’est une version plus fine de REC, utile pour l’édition d’images et la robotique où la forme exacte de l’objet compte.

Generalized Visual Grounding (GVG)

Concept émergent (depuis 2023) qui étend le visual grounding classique à des scénarios plus réalistes. Dans le VG classique, on suppose qu’il existe exactement un objet correspondant à l’expression. Le GVG gère trois cas : un objet (cas classique), plusieurs objets (« les personnes assises »), ou aucun objet (l’expression ne correspond à rien dans l’image). Cette généralisation est essentielle pour les applications réelles où les descriptions textuelles ne garantissent pas la présence de l’objet.

Grounded Captioning

L’inverse du grounding : le modèle génère une description textuelle de l’image et, pour chaque entité mentionnée, produit la bounding box correspondante. Cela crée des légendes « ancrées » dans l’image, où chaque mot est relié à sa région visuelle. Kosmos-2 (Microsoft) et Qwen2.5-VL supportent cette capacité.

Approches techniques

Approche deux étapes (two-stage)

L’approche historique, dominante jusqu’en 2020. D’abord, un détecteur d’objets (comme Faster R-CNN) génère un ensemble de propositions de régions (bounding boxes candidates). Ensuite, un module de matching compare chaque proposition avec l’expression textuelle et sélectionne la meilleure correspondance.

L’avantage : chaque étape est bien maîtrisée et entraînable séparément. L’inconvénient : le pipeline est lent (le détecteur génère des centaines de propositions), et la qualité dépend fortement du détecteur (si l’objet cible n’est pas dans les propositions, le modèle ne peut pas le trouver).

Approche une étape (one-stage)

Les méthodes récentes contournent le détecteur en prédisant directement les coordonnées de la bounding box à partir des features combinées image-texte. Les architectures Transformer (comme VGTR, TransVG) utilisent l’attention croisée pour fusionner les features visuelles et textuelles, puis une tête MLP régresse les coordonnées (x_centre, y_centre, largeur, hauteur).

Avantage : plus rapide et end-to-end, pas de dépendance à un détecteur externe. Inconvénient : peut être moins précis sur les petits objets ou les scènes complexes.

VLM avec grounding

La tendance la plus récente : les Vision Language Models (Qwen2.5-VL, Kosmos-2, Shikra) intègrent le grounding comme capacité native. Le modèle accepte une image et un prompt textuel, et génère en sortie les coordonnées de la bounding box sous forme de tokens textuels (par exemple, <box>[x1, y1, x2, y2]</box>).

L’avantage majeur : le grounding est traité comme une tâche de génération de texte, exploitant toute la puissance de raisonnement du LLM. Le modèle peut gérer des expressions complexes impliquant du raisonnement logique, spatial et contextuel, ce que les approches spécialisées gèrent mal.

Le grounding dans les VLM commerciaux GPT-5.4 et Claude Opus 4.6 ne produisent pas nativement de bounding boxes. Cependant, ils peuvent décrire la localisation d’objets en langage naturel (« en haut à gauche de l’image ») et sont capables de raisonner sur les relations spatiales. Gemini et certains VLM open source (Qwen2.5-VL) supportent la sortie de coordonnées structurées.

Datasets et benchmarks

Dataset	Images	Expressions	Spécificité	Tâche
RefCOCO	19 994	142 210	Expressions courtes, souvent spatiales (« left dog »)	REC
RefCOCO+	19 992	141 564	Pas d’expressions de localisation absolue (pas de « left », « right »)	REC
RefCOCOg	26 711	104 560	Expressions longues et descriptives, riches en attributs	REC
Flickr30K Entities	31 783	427 000	Phrases complexes avec plusieurs entités à localiser	PG
Visual Genome	108 077	~3,8 M relations	Graphes de scène avec objets, attributs et relations	PG / Relations
GRefCOCO	~19 994	Variable	Generalized VG : 0, 1 ou plusieurs objets par expression	GVG

L’évaluation standard utilise la métrique Precision@0.5 : une prédiction est correcte si l’IoU (Intersection over Union) entre la bounding box prédite et la vérité terrain est supérieure à 0,5. C’est un seuil binaire qui ne capture pas la qualité fine de la localisation, et des travaux récents proposent des métriques plus nuancées.

Les modèles de pointe atteignent plus de 90 % Precision@0.5 sur RefCOCO testA (expressions faciles, objets saillants) mais les performances chutent sur RefCOCOg (expressions longues et complexes) et les scénarios zero-shot.

Applications concrètes

Robotique et agents incarnés. Quand un humain dit à un robot « prends la tasse bleue sur la table », le robot doit localiser cette tasse précise dans son champ visuel. Le visual grounding est la brique qui permet cette compréhension des instructions en langage naturel. Les Vision-Language-Action models (VLA) intègrent le grounding comme étape intermédiaire entre la compréhension et l’action.

Agents GUI et computer use. Les agents qui naviguent dans des interfaces graphiques (GPT-5.4 computer use, Claude computer use) utilisent le grounding pour localiser les éléments d’interface correspondant à des instructions textuelles : « clique sur le bouton Envoyer », « sélectionne le fichier budget.xlsx dans la liste ».

Édition d’images guidée par le texte. Les outils d’édition IA comme « supprime la personne en arrière-plan » ou « change la couleur du canapé en bleu » nécessitent d’abord de localiser l’objet ciblé, puis d’appliquer la modification. Le visual grounding est l’étape de localisation.

Accessibilité. Pour les personnes malvoyantes, le grounding permet de répondre à des questions spatiales sur une image : « Où est la sortie de secours ? », « Y a-t-il des marches devant moi ? ». Combiné avec de la synthèse vocale, il crée des assistants visuels interactifs.

Recherche de contenu visuel. Dans une base d’images ou de vidéos, le grounding permet de chercher non seulement les images contenant un objet, mais la localisation précise de cet objet. « Montre-moi les images où une personne porte un casque jaune » avec les bounding boxes correspondantes.

Imagerie médicale. Le grounding médical permet de localiser les anomalies décrites par un radiologue : « opacité dans le lobe supérieur droit », « nodule de 2 cm adjacent à la bifurcation bronchique ». Des travaux récents explorent le fine-tuning de VLM pour le grounding médical.

Évaluation et métriques

Les modèles de pointe atteignent plus de 90 % Precision@0.5 sur RefCOCO testA (expressions faciles, objets saillants) mais les performances chutent significativement sur RefCOCOg (expressions longues et complexes) et dans les scénarios zero-shot. L’écart entre les performances sur RefCOCO (expressions courtes et directes) et RefCOCOg (expressions descriptives avec relations) révèle que la compréhension linguistique fine reste un goulet d’étranglement.

Pour le GVG (Generalized Visual Grounding), des métriques supplémentaires sont utilisées : Precision@(F1=1, IoU≥0.5) qui prend en compte les cas où il n’y a pas d’objet à localiser (le modèle doit prédire « rien »), et N-acc qui mesure la précision du nombre d’objets détectés.

Une limite reconnue de Precision@0.5 est son caractère binaire : un IoU de 0,49 est compté comme un échec, alors qu’un IoU de 0,51 est un succès, ce qui ne reflète pas la qualité perçue de la localisation. Des métriques continues comme l’IoU moyen ou des évaluations à seuils multiples (Precision@0.7, Precision@0.9) sont de plus en plus utilisées en complément.

Le visual grounding dans l’écosystème IA

Le visual grounding ne fonctionne pas en isolation. Il s’inscrit dans un réseau de tâches multimodales interconnectées :

Avec l’image captioning : le grounded captioning combine génération de descriptions et localisation des entités. Le modèle produit « Un homme en costume bleu parle au téléphone » et associe chaque entité (« homme », « costume bleu », « téléphone ») à sa bounding box.

Avec la segmentation : la Referring Expression Segmentation (RES) étend le grounding de la bounding box au masque pixel-précis. Des modèles comme EVF-SAM combinent BEiT-3 pour le grounding textuel et SAM (Segment Anything Model) pour la segmentation fine.

Avec le multimodal learning : le grounding est une compétence transversale qui améliore toutes les tâches multimodales. Un VLM qui sait « ancrer » ses mots dans les régions visuelles produit des descriptions plus fidèles, répond plus précisément aux questions visuelles, et hallucine moins.

Avec la robotique : les VLA models (Vision-Language-Action) utilisent le grounding comme étape intermédiaire entre l’instruction textuelle et l’action motrice. « Prends le verre rouge » → [grounding : localise le verre rouge] → [planification : mouvement du bras vers les coordonnées] → [exécution].

Défis actuels et directions de recherche

Compréhension des relations. Les expressions de grounding impliquent souvent des relations spatiales (« le verre à droite de l’assiette ») ou sémantiques (« la personne qui parle »). Les modèles actuels peinent avec les relations complexes impliquant plusieurs entités, surtout quand les objets sont visuellement similaires.

Raisonnement compositionnel. Une expression comme « le troisième livre en partant de la gauche sur l’étagère du milieu » nécessite du comptage, de l’ordonnancement spatial et une compréhension hiérarchique de la scène. C’est un point faible systématique, même pour les VLM les plus avancés.

Ambiguïté et expressions vagues. Les expressions du monde réel sont souvent imprécises. « La chose là-bas » ou « le truc à côté » sont parfaitement naturels en conversation mais difficiles à interpréter sans contexte supplémentaire. Le grounding généralisé (GVG) commence à adresser ces cas.

Haute résolution et giga-pixel grounding. Localiser un objet spécifique dans une image satellite de 10 000×10 000 pixels est un défi computationnel et perceptuel. Des travaux récents (GeoViS) explorent le grounding sur des images géospatiales en formulant la recherche comme un processus de décision markovien.

Grounding vidéo. Étendre le grounding à la vidéo ajoute la dimension temporelle : « la voiture qui tourne à droite à la 15e seconde ». Le video captioning et le audio-visual learning sont des domaines connexes.

Zero-shot grounding. Effectuer du grounding sans données de fine-tuning spécifiques est un axe de recherche actif. Des travaux récents (CVPR 2024) exploitent CLIP et ChatGPT pour décomposer les expressions en sous-requêtes et apparier les entités avec les régions visuelles, sans entraînement supervisé sur RefCOCO.

Le grounding comme compétence clé des agents IA Le visual grounding est en train de passer du statut de tâche de benchmark académique à celui de compétence critique pour les agents IA. Un agent qui navigue sur le web, contrôle un robot, ou assiste un chirurgien doit savoir localiser avec précision ce dont on lui parle. C’est pourquoi les VLM de pointe (Qwen2.5-VL, Gemini) intègrent le grounding nativement.

Questions fréquentes sur le visual grounding

Quelle est la différence entre visual grounding et détection d’objets ?

La détection d’objets trouve toutes les instances d’une catégorie prédéfinie (tous les « chiens » dans l’image). Le visual grounding localise un objet spécifique décrit par du texte libre (« le petit chien marron qui dort près de la cheminée »). La détection travaille avec un vocabulaire de classes fixe, le grounding avec du langage naturel ouvert. Le grounding est plus flexible mais plus difficile car il nécessite la compréhension du langage en plus de la vision.

Quelle est la différence entre visual grounding et image captioning ?

Ce sont des tâches inverses. L’image captioning prend une image et génère du texte. Le visual grounding prend du texte et localise la région correspondante dans l’image. Le grounded captioning combine les deux : le modèle génère une description et lie chaque entité mentionnée à sa bounding box dans l’image.

Les VLM comme GPT-5.4 peuvent-ils faire du visual grounding ?

GPT-5.4 et Claude Opus 4.6 comprennent les descriptions spatiales et peuvent raisonner sur la localisation d’objets, mais ils ne produisent pas de bounding boxes structurées. Certains VLM open source (Qwen2.5-VL, Kosmos-2) sont spécifiquement entraînés pour générer des coordonnées de bounding boxes en sortie textuelle. Gemini supporte aussi la sortie de coordonnées. Pour du grounding précis en production, un modèle spécialisé (comme un VLM fine-tuné sur RefCOCO) reste préférable.

Quels sont les meilleurs modèles de visual grounding en 2026 ?

Sur les benchmarks RefCOCO/+/g, les modèles de pointe sont OneRef (NeurIPS 2024), SimVG (NeurIPS 2024) et HiVG (ACM MM 2024) pour les approches spécialisées. Parmi les VLM généralistes avec grounding, Qwen2.5-VL et les successeurs de Kosmos-2 offrent les meilleures performances. Les approches zero-shot utilisant CLIP et des LLM pour la décomposition d’expressions progressent rapidement mais restent en deçà des modèles fine-tunés.

Le visual grounding fonctionne-t-il sur la vidéo ?

Oui, mais c’est un défi supplémentaire. Le video grounding ajoute la dimension temporelle : il faut localiser un objet dans l’espace (bounding box) et dans le temps (segment vidéo). Des expressions comme « la personne qui entre dans la pièce entre la 10e et la 15e seconde » nécessitent une compréhension temporelle en plus de la compréhension spatiale et linguistique. Les benchmarks comme Charades-STA et ActivityNet Captions évaluent cette capacité.