Symbol Grounding Problem : comment les mots acquièrent-ils un sens pour une IA ?
Le Symbol Grounding Problem (problème de l’ancrage des symboles) est la question fondamentale de savoir comment les symboles manipulés par un système formel, comme un ordinateur ou un LLM, peuvent acquérir un sens intrinsèque plutôt que de rester de purs jetons sans signification.
Formulé par le scientifique cognitif Stevan Harnad en 1990, ce problème est une extension directe de l’argument de la chambre chinoise de Searle. En 2026, il est plus pertinent que jamais : les LLM manipulent des tokens avec une maîtrise impressionnante, mais ces tokens ont-ils un sens pour le modèle, ou seulement pour nous qui lisons ses sorties ? Des travaux récents (Mollo & Millière, 2025) ont reformulé le problème pour l’ère des réseaux de neurones sous le nom de « Vector Grounding Problem », tandis qu’une analyse catégorielle (Floridi, Jia & Tohmé, 2025) argumente que les LLM contournent le problème plutôt que de le résoudre.
- Aussi appelé
- Problème de l’ancrage des symboles, Symbol Grounding, Grounding Problem
- Auteur
- Stevan Harnad (1990), article « The Symbol Grounding Problem », Physica D
- Catégorie
- Sciences cognitives / Philosophie de l’IA / Sémantique computationnelle
- Question centrale
- Comment des symboles manipulés selon des règles syntaxiques acquièrent-ils un sens intrinsèque ?
- Extension moderne
- Vector Grounding Problem (Mollo & Millière, 2025)
- Concepts liés
- Chambre chinoise, conscience artificielle, embeddings
Le problème expliqué
L’analogie du dictionnaire
Imaginez que vous essayez d’apprendre une langue totalement inconnue avec pour seul outil un dictionnaire monolingue dans cette langue. Chaque mot est défini par d’autres mots de la même langue, qui sont eux-mêmes définis par d’autres mots, et ainsi de suite. Vous tournez en rond indéfiniment, passant d’un symbole vide de sens à un autre, sans jamais « atterrir » sur quelque chose de concret. Harnad appelle cela le « manège des symboles » (merry-go-round) : un cycle infini de définitions qui ne mène jamais au sens.
Pour un humain, les mots sont ancrés dans l’expérience sensorielle. Le mot « neige » est connecté à la vue de la neige, à la sensation de froid, à la texture poudreuse sous les doigts. Ce sont ces connexions au monde réel qui donnent un sens aux symboles linguistiques. Sans elles, les mots restent des formes arbitraires.
Formulation formelle
Harnad pose la question suivante : comment des tokens de symboles, manipulés uniquement sur la base de leur forme selon des règles syntaxiques, peuvent-ils acquérir un sens et se référer à des entités et propriétés du monde réel, plutôt que de rester liés à d’autres tokens de symboles vides de sens, et ce sans dépendre des interprétations sémantiques fournies par des systèmes externes porteurs de sens (comme les humains) ?
Harnad distingue deux types de sens :
| Type | Définition | Exemple |
|---|---|---|
| Sens intrinsèque | Le système lui-même « sait » ce que ses symboles signifient, indépendamment de tout interprète externe | Quand vous pensez « chien », votre représentation mentale est intrinsèquement liée à votre expérience des chiens |
| Sens extrinsèque (dérivé) | Les symboles n’ont de sens que pour un observateur externe qui les interprète | Les mots dans un livre n’ont de sens que pour le lecteur, pas pour le papier |
La thèse de Harnad : les systèmes d’IA classiques (et peut-être les LLM) ne possèdent que du sens extrinsèque. Leur sens est « parasitaire » de celui que les humains projettent sur leurs sorties.
Le Symbol Grounding Problem et les LLM
Le Vector Grounding Problem (2025)
En 2025, Mollo et Millière ont publié un article influent reformulant le problème pour l’ère des réseaux de neurones. Contrairement aux systèmes symboliques classiques, les LLM ne manipulent pas des symboles discrets mais des vecteurs continus en haute dimension (les embeddings). La question devient : comment des vecteurs, manipulés selon des opérations mathématiques, peuvent-ils acquérir un sens intrinsèque ?
Les auteurs identifient cinq types de grounding :
| Type de grounding | Description | Présent chez les LLM ? |
|---|---|---|
| Sensorimoteur | Connexion aux perceptions et actions physiques | Non (sauf modèles multimodaux avec vision/audio, partiellement) |
| Communicatif | Ancrage dans les pratiques communicatives | Partiellement (entraînement sur du texte humain) |
| Épistémique | Connexion aux normes de vérité et de justification | Partiellement (via RLHF et feedback humain) |
| Relationnel | Relations structurées entre représentations internes | Oui (les embeddings capturent des relations sémantiques riches) |
| Référentiel | Capacité à désigner des entités spécifiques du monde réel | Débattu (c’est le cœur du Vector Grounding Problem) |
Mollo et Millière concluent que le grounding référentiel (la capacité à « pointer vers » des entités réelles) est le type le plus difficile à atteindre pour les LLM, mais que certains mécanismes d’entraînement (RLHF avec des critères de factualité, fine-tuning sur des objectifs extra-linguistiques) pourraient y contribuer. Leur position : le problème est soluble en principe, et partiellement résolu en pratique pour certains modèles.
L’hypothèse du parasitisme épistémique
Une analyse catégorielle publiée par Floridi, Jia et Tohmé (2025) propose une perspective plus critique. Leur thèse : les LLM ne résolvent pas le symbol grounding problem mais le contournent par une forme de « parasitisme épistémique ». Ils opèrent exclusivement sur un corpus de texte que les humains ont déjà ancré dans le monde par leur expérience incarnée, leurs interactions causales et leurs pratiques socio-culturelles.
L’analogie proposée : le LLM est comme le corbeau d’Edgar Allan Poe qui répète « Nevermore » sans en comprendre le sens, sauf que la répétition du LLM est statistiquement sophistiquée plutôt que fidèle acoustiquement. Le LLM maîtrise des « régularités de second ordre » : des patterns dans la manière dont les humains décrivent des patterns, pas les patterns du monde eux-mêmes.
Comment les humains ancrent-ils les symboles ?
Pour comprendre ce qui manque (potentiellement) aux LLM, il est utile de comprendre comment les humains ancrent les symboles :
| Mécanisme humain | Description | Équivalent LLM |
|---|---|---|
| Couplage causal-perceptuel | Les neurones humains ont des connexions causales directes avec les objets du monde (voir, toucher, sentir) | Absent (les LLM n’interagissent pas avec le monde physique) |
| Engagement sensorimoteur | Interaction physique avec les affordances du monde (attraper, pousser, naviguer) | Absent (sauf systèmes de robotique incarnée) |
| Pratiques socio-culturelles | Apprentissage du sens par les interactions sociales, les normes, les conventions | Indirect (via le corpus d’entraînement qui capture ces pratiques) |
| Expérience phénoménologique | L’expérience subjective qui accompagne la perception (le « qualia ») | Aucune preuve chez les LLM |
Un point intéressant soulevé par Dove (2024) : la mémoire sémantique humaine n’est elle-même que partiellement ancrée dans les systèmes sensorimoteurs. Les humains disposent aussi d’un « désancrage symbolique » (symbol ungrounding) : la capacité de raisonner avec des concepts abstraits qui ne correspondent à aucune expérience sensorielle directe (liberté, justice, infini). Les LLM pourraient être particulièrement performants sur ce type de cognition abstraite, précisément parce qu’elle ne nécessite pas d’ancrage sensoriel.
Les modèles multimodaux résolvent-ils le problème ?
Les modèles multimodaux (GPT-5.4, Claude Opus 4.6, Gemini 3.1 Pro) qui traitent simultanément texte, images, audio et vidéo offrent une forme de grounding plus riche. Le concept de « chien » n’est plus seulement associé à des contextes textuels mais aussi à des patterns visuels (photos de chiens) et sonores (aboiements).
Cependant, Mollo et Millière (2025) notent que ni la multimodalité ni l’incarnation (embodiment) ne sont universellement nécessaires ou suffisantes pour le grounding. Un modèle multimodal associe des représentations visuelles à des représentations textuelles, mais cette association reste statistique. Voir une photo de chien n’est pas la même chose qu’interagir avec un vrai chien, le toucher, sentir son odeur, être léché par sa langue.
L’analyse mécaniste (Wu et al., oct. 2025) offre un éclairage plus nuancé : dans les Transformers, des « têtes d’attention agrégées » dans les couches intermédiaires effectuent un routage fonctionnel des tokens environnementaux pour ancrer les sorties linguistiques. Désactiver ces têtes détruit les gains de grounding. Les architectures LSTM, en revanche, manquent de tels mécanismes et ne parviennent pas à un grounding comportemental authentique.
Interprétabilité et grounding interne
Les travaux en interprétabilité mécaniste compliquent le tableau. Les « attribution graphs » d’Anthropic (mars 2025) montrent que les LLM forment des représentations internes qui vont au-delà de la simple manipulation de tokens :
Les embeddings capturent des relations sémantiques riches dans un espace à très haute dimension. Le modèle effectue du raisonnement multi-étapes en construisant des représentations intermédiaires. Les représentations internes semblent transcender les langues individuelles (un concept est représenté de manière similaire en anglais et en chinois). Certaines têtes d’attention fonctionnent comme des mécanismes de grounding, liant les tokens linguistiques à des structures conceptuelles internes.
Ces découvertes ne prouvent pas que les LLM possèdent un grounding intrinsèque au sens de Harnad, mais elles montrent que le « manège des symboles » est une description trop simpliste de ce qui se passe dans un Transformer moderne. Les vecteurs ne sont pas des symboles arbitraires : ils encodent des structures qui, fonctionnellement, ressemblent à des relations sémantiques.
Implications pratiques
Le symbol grounding problem n’est pas qu’une curiosité philosophique. Il a des conséquences directes sur l’utilisation des LLM et sur la conception de systèmes IA fiables :
Les hallucinations sont structurelles, pas accidentelles. Si les LLM n’ont pas d’ancrage direct avec la réalité, ils n’ont aucun moyen interne de distinguer le vrai du faux. Ils génèrent du texte statistiquement plausible, pas nécessairement vrai. C’est pourquoi même les modèles les plus avancés (GPT-5.4, Claude Opus 4.6) produisent parfois des affirmations fausses avec une confiance apparente totale. Le RAG (Retrieval-Augmented Generation) est une forme externe de grounding : en connectant le LLM à des sources de données vérifiées, on lui fournit un ancrage que son architecture seule ne possède pas.
Les agents IA qui interagissent avec le monde (exécuter du code, naviguer sur le web, utiliser des outils) acquièrent une forme de grounding fonctionnel : leurs tokens ont des conséquences dans le monde réel, créant une boucle de feedback qui manque aux modèles purement textuels. Un agent qui exécute du code et observe le résultat a un retour concret sur la validité de ses « raisonnements », ce qui constitue un ancrage partiel mais réel.
Pour les développeurs, cette compréhension du grounding a des implications architecturales. Plutôt que de demander à un LLM de « savoir » des faits, on le connecte à des systèmes qui « savent » : bases de données, API, moteurs de recherche. C’est la logique derrière le function calling et le MCP (Model Context Protocol) : fournir au modèle des canaux d’interaction avec le monde réel pour compenser son déficit intrinsèque de grounding.
Questions fréquentes sur le Symbol Grounding Problem
Qu’est-ce que le Symbol Grounding Problem en termes simples ?
C’est la question de savoir comment des symboles (comme des mots ou des tokens) manipulés par un ordinateur selon des règles mathématiques peuvent acquérir un sens réel. Pour un humain, le mot « pomme » est lié à la vue, au goût, à la texture d’une pomme. Pour un LLM, le token « pomme » est un vecteur de nombres lié à d’autres vecteurs de nombres. La question : cette liaison statistique entre vecteurs constitue-t-elle du « sens », ou les tokens restent-ils fondamentalement vides de signification, ne prenant un sens que quand un humain les lit ?
Les LLM ont-ils résolu le Symbol Grounding Problem ?
Le débat est vif. Mollo et Millière (2025) argumentent qu’une forme basique de grounding est possible chez les LLM, notamment le grounding référentiel via le RLHF et les objectifs de factualité. Floridi, Jia et Tohmé (2025) argumentent au contraire que les LLM contournent le problème par « parasitisme épistémique » : ils opèrent sur du texte que les humains ont déjà ancré. La vérité est probablement nuancée : les LLM possèdent une forme de grounding partiel et indirect (des représentations riches dérivées de texte humain ancré), mais pas le grounding complet et autonome que possèdent les humains.
Quel est le lien entre le Symbol Grounding Problem et les hallucinations ?
Le lien est direct et fondamental. Si un LLM ne possède pas d’ancrage direct avec la réalité, il n’a aucun mécanisme interne pour vérifier si ses sorties correspondent au monde réel. Il génère du texte qui est statistiquement plausible (cohérent avec ses données d’entraînement) mais potentiellement faux. Les hallucinations sont une conséquence structurelle du manque de grounding, pas un bug à corriger. Le RAG et le tool use sont des formes de grounding externe qui atténuent le problème sans le résoudre fondamentalement.
Quelle est la différence entre le Symbol Grounding Problem et la chambre chinoise ?
Les deux sont étroitement liés. La chambre chinoise de Searle (1980) argue qu’un système manipulant des symboles ne comprend pas leur sens. Le Symbol Grounding Problem de Harnad (1990) formalise et étend cette intuition : il demande comment, concrètement, des symboles pourraient acquérir un sens. La chambre chinoise est un argument (la manipulation syntaxique ne produit pas de compréhension) ; le symbol grounding est un problème (comment ancrer les symboles dans le monde). Harnad propose une solution partielle : les symboles doivent être ancrés dans des représentations catégorielles acquises par l’expérience sensorielle directe.
Les modèles multimodaux résolvent-ils le problème ?
Partiellement. Les modèles multimodaux qui traitent texte, images, audio et vidéo offrent un grounding plus riche que les modèles purement textuels : le concept de « chien » est associé non seulement à des contextes linguistiques mais aussi à des patterns visuels et sonores. Cependant, Mollo et Millière (2025) notent que la multimodalité n’est ni nécessaire ni suffisante pour le grounding complet. Associer des pixels à des tokens reste une opération statistique. L’ancrage sensorimoteur complet (interagir physiquement avec le monde) est probablement nécessaire pour le grounding au sens plein du terme. Les systèmes de robotique incarnée qui apprennent par interaction avec leur environnement sont les candidats les plus prometteurs pour résoudre véritablement le Symbol Grounding Problem.