Knowledge Graph (Graphe de connaissances)

Un knowledge graph est une base de connaissances structurée sous forme de graphe, composée d’entités (nœuds) et de relations (arêtes) qui décrivent les objets, concepts et événements du monde réel et leurs interconnexions, permettant aux machines de raisonner sur le sens et le contexte de l’information.

Catégorie: Représentation des connaissances / Web sémantique
Unité de base: Le triplet : sujet → prédicat → objet (ex. : Paris → est_capitale_de → France)
Modèles de données: RDF (triplets), Property Graph (nœuds + propriétés)
Langages de requête: SPARQL (RDF), Cypher/GQL (property graph)
Exemples majeurs: Google Knowledge Graph, Wikidata, DBpedia, Facebook Entity Graph
Outils: Neo4j, Amazon Neptune, Stardog, GraphDB, TigerGraph
Marché: ~0,7 Md $ en 2022, projection 3,6 Mds $ d’ici 2030 (CAGR 22 %)

Le principe : passer des chaînes aux choses

Quand Google a lancé son Knowledge Graph en 2012, le slogan interne était « from strings to things » (des chaînes de caractères aux objets du monde réel). C’est l’idée fondamentale : au lieu de traiter l’information comme du texte brut (des « chaînes »), on la structure en entités identifiées (des « choses ») reliées par des relations typées.

Quand vous cherchez « Tour Eiffel » sur Google, le panneau de connaissances qui apparaît à droite (hauteur, architecte, année de construction, localisation) provient du Knowledge Graph de Google. Ce graphe contient plus de 500 millions d’entités, sourcées à partir de Wikidata, Wikipedia, le CIA World Factbook et d’autres sources. Chaque entité est reliée à d’autres par des relations typées : la Tour Eiffel « est_située_à » Paris, Paris « est_capitale_de » France, France « est_un » pays européen.

Cette structure permet quelque chose que la recherche par mots-clés ne peut pas faire : comprendre le contexte et naviguer dans les relations. Si vous cherchez « l’architecte de la Tour Eiffel », le graphe traverse la relation « conçu_par » pour trouver Gustave Eiffel, sans avoir besoin que cette phrase exacte apparaisse dans un document.

Structure d’un knowledge graph

Le triplet : l’atome du graphe

L’unité fondamentale d’un knowledge graph est le triplet (sujet, prédicat, objet). Il exprime un fait élémentaire :

« Elon Musk » (sujet) → « est PDG de » (prédicat) → « Tesla, Inc. » (objet)

« Paris » (sujet) → « est situé en » (prédicat) → « France » (objet)

« Vitamine D » (sujet) → « favorise » (prédicat) → « santé osseuse » (objet)

Chaque triplet forme une arête directionnelle dans le graphe. En accumulant des millions de triplets, on construit un réseau dense de connaissances interconnectées. Le pouvoir du graphe vient de la navigation entre les relations : en enchaînant les triplets, on peut répondre à des questions complexes par traversée du graphe.

Nœuds, relations et propriétés

Les nœuds (ou entités) représentent les « choses » du graphe : personnes, lieux, organisations, produits, concepts. Chaque nœud a un identifiant unique (un URI dans le monde RDF, un ID interne dans un property graph) et un ou plusieurs labels (types) : Personne, Lieu, Organisation.

Les relations (ou arêtes) connectent deux nœuds et expriment le lien qui les unit. Chaque relation a un type : « travaille_pour », « est_situé_à », « a_fondé ». Les relations sont directionnelles (de A vers B) mais peuvent être interrogées dans les deux sens.

Les propriétés sont des attributs attachés aux nœuds ou aux relations : date de naissance, chiffre d’affaires, date de début de la relation. Leur prise en charge varie selon le modèle de données (voir section suivante).

Les deux modèles de données

Critère	RDF (Resource Description Framework)	Property Graph (Graphe à propriétés)
Unité de données	Triplet (sujet, prédicat, objet)	Nœuds et arêtes avec propriétés clé-valeur
Identifiants	URI/IRI globaux (interopérabilité web)	IDs internes (spécifiques à la base)
Langage de requête	SPARQL	Cypher (Neo4j), GQL (standard ISO), Gremlin
Schéma / Ontologie	RDFS, OWL (raisonnement logique formel)	Labels et contraintes (moins formel)
Propriétés sur les relations	Pas natif (réification nécessaire)	Natif (clé-valeur sur les arêtes)
Raisonnement automatique	Oui (inférence OWL/RDFS)	Limité
Performance de traversée	Via jointures (plus lent)	Via pointeurs mémoire (très rapide)
Interopérabilité	Standard W3C, Linked Data	Propriétaire (en voie de standardisation avec GQL)
Outils principaux	Stardog, GraphDB, Jena, Amazon Neptune (mode RDF)	Neo4j, TigerGraph, Amazon Neptune (mode PG), ArangoDB
Cas d’usage idéal	Web sémantique, données liées, interopérabilité inter-organisations	Applications d’entreprise, recommandation, détection de fraude

Quel modèle choisir ? Si vous avez besoin de raisonnement logique formel (inférence, classification automatique) et d’interopérabilité avec des données web standardisées : RDF + SPARQL. Si vous avez besoin de performances de traversée élevées, de propriétés riches sur les relations, et d’un développement rapide : property graph + Cypher/GQL. Neo4j est le choix le plus populaire pour les applications d’entreprise. En pratique, les frontières s’estompent : Neo4j intègre le support RDF via neosemantics, et Amazon Neptune supporte les deux modèles.

Ontologies : le schéma du knowledge graph

Une ontologie définit formellement les types d’entités, les types de relations, et les contraintes logiques d’un domaine. C’est le « schéma » du knowledge graph. Par exemple, une ontologie médicale définit que « Médicament » est un type d’entité, qu’un médicament « traite » une « Pathologie », et qu’une « Pathologie » « affecte » un « Organe ». Les ontologies permettent le raisonnement automatique : si « A est situé dans B » et « B est situé dans C », alors « A est situé dans C » (transitivité).

OWL (Web Ontology Language) et RDFS (RDF Schema) sont les standards pour définir des ontologies dans le monde RDF. Protégé est l’outil open source de référence pour la construction d’ontologies. Dans le monde property graph, les « labels » et « contraintes » jouent un rôle similaire mais moins formel.

Comment construire un knowledge graph

La construction d’un knowledge graph suit un pipeline en quatre étapes :

1. Extraction d’entités et de relations. À partir de texte brut (documents, pages web, notes), le NLP extrait les entités (NER) et les relations entre elles (Relation Extraction). Les LLM accélèrent considérablement cette étape : on peut demander à un modèle d’extraire les triplets d’un texte directement.

2. Résolution d’entités. Identifier que « Elon Musk », « Musk » et « le CEO de Tesla » désignent la même entité. C’est le processus de déduplication et de normalisation (entity resolution / entity linking).

3. Stockage dans une base de graphes. Les entités et relations sont persistées dans une base de données graphe (Neo4j, Neptune, Stardog) selon le modèle choisi (RDF ou property graph).

4. Enrichissement et raisonnement. Des règles ontologiques (OWL, SWRL) déduisent automatiquement de nouvelles relations implicites. Des modèles de machine learning (graph neural networks, link prediction) complètent le graphe en prédisant des relations manquantes.

Le vrai défi : la curation Construire un knowledge graph est techniquement faisable. Le maintenir à jour, cohérent et de qualité est le vrai défi. Les données changent, les entités évoluent, les relations deviennent obsolètes. Sans processus de curation continue (humaine ou automatisée), la qualité du graphe se dégrade rapidement. Selon une étude AWS, 40 % des Chief Data Officers citent encore la qualité des données comme leur problème principal. Le talent en design d’ontologies et en intégration sémantique reste rare.

Knowledge graphs et IA : la convergence KG+LLM

GraphRAG : le RAG dopé au graphe

Le GraphRAG combine la recherche vectorielle du RAG classique avec la navigation dans un knowledge graph. Au lieu de chercher uniquement par similarité sémantique (« quel chunk de texte ressemble le plus à ma question ? »), le système navigue les relations structurées du graphe pour récupérer des informations contextuellement liées.

Cela résout un problème fondamental du RAG vectoriel : il ne comprend pas les relations. Si vous demandez « Quels produits sont vendus par les filiales de l’entreprise X en Europe ? », un RAG vectoriel cherchera des chunks contenant ces mots. Un GraphRAG traversera le graphe : Entreprise X → a_filiale → Filiale Y → est_située_en → Europe → vend → Produit Z. La précision de recherche peut atteindre 99 % dans les configurations bien curatées.

Fujitsu a annoncé début 2026 un framework hybride knowledge graph-LLM pour l’IoT industriel, qui minimise les hallucinations via une vérification factuelle dynamique contre le graphe. Progress Software a intégré le querying avancé de knowledge graphs dans sa plateforme RAG agentique pour l’analytique d’entreprise en temps réel.

LLM pour construire et enrichir les graphes

Les LLM transforment la construction de knowledge graphs. Au lieu d’écrire des extracteurs NLP spécialisés, on peut demander à un LLM d’extraire les entités et les relations d’un texte en langage naturel, de résoudre les ambiguïtés, et de suggérer des liens manquants. L’IA peut « guider l’assemblage » du graphe, réduisant considérablement l’effort manuel de construction.

Inversement, les knowledge graphs ancrent les LLM dans des faits vérifiables, réduisent les hallucinations, et fournissent un contexte structuré pour le raisonnement. SAP, dans ses prédictions IA 2026, recommande aux organisations d’investir dans des « knowledge graphs sémantiquement riches » comme fondation pour rendre les systèmes IA natifs fiables et auto-améliorants.

Approche neurosymbolique

La combinaison de knowledge graphs (raisonnement symbolique, logique formelle) avec des LLM (raisonnement probabiliste, compréhension du langage) est appelée « IA neurosymbolique ». C’est une tendance structurante en 2026 : le graphe fournit la rigueur et la traçabilité, le LLM fournit la flexibilité et la compréhension du langage. Les architectures IA natives d’entreprise combinent les deux pour des systèmes à la fois intelligents et gouvernables.

Applications des knowledge graphs

Moteurs de recherche. Google, Bing et les autres moteurs utilisent des knowledge graphs massifs pour comprendre les requêtes en termes d’entités et de relations, pas seulement de mots-clés. Le SEO évolue vers l’optimisation par entités (entity-based SEO) plutôt que par mots-clés.

Recommandation. Netflix, Amazon, Airbnb, LinkedIn utilisent des graphes de connaissances pour les systèmes de recommandation : « les utilisateurs qui aiment X aiment aussi Y » est une traversée de graphe. Les recommandations basées sur des graphes sont plus explicables que celles basées sur du deep learning pur.

Détection de fraude. Les banques et assureurs utilisent des graphes pour détecter les réseaux de fraude : des connexions suspectes entre comptes, transactions et entités deviennent visibles quand les données sont structurées en graphe.

Santé et pharma. Les knowledge graphs médicaux relient médicaments, pathologies, gènes, protéines et essais cliniques. Ils accélèrent la découverte de médicaments (drug repurposing) en trouvant des connexions inattendues entre molécules et maladies.

Supply chain et industrie. Hitachi a lancé fin 2025 une plateforme de knowledge graph temporel pour la maintenance prédictive dans le secteur énergétique, améliorant l’efficacité opérationnelle de 35 % dans les usines japonaises.

Conformité et gestion des données. Les knowledge graphs structurent la lignée des données (data lineage), les politiques de conformité et les relations entre entités réglementaires, facilitant l’audit et le respect des normes (RGPD, AI Act).

Les grands knowledge graphs publics

Knowledge Graph	Créateur	Contenu	Format
Google Knowledge Graph	Google	500M+ entités, généraliste	Propriétaire (schema.org)
Wikidata	Wikimedia Foundation	100M+ items, encyclopédique, multilingue	RDF, SPARQL, JSON, open data
DBpedia	Communauté	Extrait des infoboxes Wikipedia	RDF, SPARQL, open data
YAGO	Max Planck Institute	10M+ entités, précision élevée	RDF, open data
Freebase	Google (abandonné 2016)	Migré vers Wikidata	RDF (archivé)

Défis des knowledge graphs

Construction et maintenance. Construire un knowledge graph de qualité est coûteux en temps et en expertise. Le design d’ontologie requiert des compétences rares (ingénierie ontologique, linguistique computationnelle). La maintenance continue (ajout de nouvelles entités, correction d’erreurs, mise à jour des relations) est un processus permanent.

Scalabilité. Les enterprise-grade knowledge graphs contiennent des milliards de triplets. Les bases RDF modernes atteignent des latences sub-seconde sur des datasets dépassant 10 milliards de triplets, mais les requêtes complexes multi-hop restent gourmandes en ressources.

Adoption. Malgré le buzz, l’adoption reste en deçà des attentes. Beaucoup d’organisations parlent de knowledge graphs mais peu les déploient à grande échelle. Les raisons : complexité technique, manque de talent en ontologie, et difficulté à démontrer le ROI à court terme.

Interopérabilité. Les knowledge graphs d’entreprise sont souvent des silos. Relier des graphes provenant de sources différentes (fournisseurs, partenaires, données publiques) nécessite un alignement d’ontologies complexe. Le Linked Data et les standards du web sémantique fournissent un cadre, mais l’adoption reste limitée en pratique.

Tendances 2026

KG+LLM comme standard d’architecture. La combinaison knowledge graph + LLM est en train de devenir le pattern de référence pour les applications IA d’entreprise. SAP, IBM, Google et d’autres poussent cette convergence dans leurs plateformes.

Knowledge graphs temps réel. Les graphes statiques cèdent la place à des graphes qui intègrent des données en temps réel (flux IoT, transactions, événements). Les graphes temporels ajoutent une dimension temps aux relations.

Couche sémantique pour l’IA. Les knowledge graphs deviennent la « couche sémantique » qui définit le vocabulaire partagé entre les systèmes IA, les données d’entreprise et les utilisateurs. L’Open Semantic Interface (OSI) standardise cette couche.

IA pour la construction de graphes. Les LLM automatisent de plus en plus l’extraction d’entités, le linking, et l’enrichissement des graphes, réduisant le besoin en curation manuelle. Mais la supervision humaine reste indispensable pour la qualité.

GraphRAG agentique. Les agents IA autonomes utilisent les knowledge graphs comme « mémoire structurée » pour naviguer dans les connaissances de l’entreprise, prendre des décisions et exécuter des actions en contexte.

Verdict

Les knowledge graphs sont le complément structurel indispensable des LLM. Là où les LLM excellent en compréhension et en génération de langage, ils échouent en précision factuelle, en traçabilité et en raisonnement structuré. Le knowledge graph fournit exactement ces capacités manquantes. La combinaison KG+LLM (GraphRAG, IA neurosymbolique) est l’architecture la plus prometteuse pour des systèmes IA d’entreprise fiables et gouvernables.

Pour les praticiens : si vous construisez un système RAG et que la précision factuelle est critique (conformité, finance, santé), investissez dans un knowledge graph. Commencez par un périmètre étroit (un domaine métier, une taxonomie de produits), utilisez Neo4j ou un service managé (Neptune), et connectez-le à votre pipeline RAG via GraphRAG. L’ontologie n’a pas besoin d’être parfaite au départ : commencez simple et itérez.

Questions fréquentes sur les knowledge graphs

Quelle est la différence entre un knowledge graph et une base de données relationnelle ?

Une base relationnelle stocke des données dans des tables avec des lignes et des colonnes, reliées par des clés étrangères. Un knowledge graph stocke des entités et des relations directement, sans tables. L’avantage du graphe : la navigation entre les relations est beaucoup plus rapide (traversée de pointeurs vs. jointures SQL), et le schéma est flexible (ajouter un nouveau type de relation ne nécessite pas de modifier la structure). L’avantage de la base relationnelle : maturité, performances pour les agrégations massives, et écosystème d’outils plus large.

Faut-il choisir entre RDF et property graph ?

Cela dépend de votre priorité. Si l’interopérabilité et le raisonnement formel sont essentiels (recherche académique, données liées, web sémantique) : RDF + SPARQL + OWL. Si les performances de traversée, la facilité de développement et l’intégration applicative sont prioritaires (produit, fraude, recommandation) : property graph + Cypher (Neo4j). En pratique, les frontières s’estompent : Neo4j supporte les imports RDF via neosemantics, et Amazon Neptune supporte les deux modèles natifs.

Le Google Knowledge Graph est-il accessible publiquement ?

Non directement. Google utilise son Knowledge Graph en interne pour alimenter les résultats de recherche (knowledge panels, questions/réponses). Il n’est pas disponible en téléchargement. En revanche, Wikidata et DBpedia sont des knowledge graphs publics et open data qui couvrent une grande partie du même périmètre encyclopédique. Wikidata est le plus actif (100M+ items, mises à jour continues, API SPARQL ouverte) et constitue le point de départ recommandé pour explorer les knowledge graphs publics.

Comment un knowledge graph réduit-il les hallucinations d’un LLM ?

Le GraphRAG utilise le knowledge graph comme source de vérité. Au lieu de laisser le LLM générer une réponse à partir de sa mémoire paramétrique (sujette aux hallucinations), le système interroge d’abord le graphe pour récupérer les faits structurés pertinents, puis les injecte dans le contexte du LLM. Le modèle génère sa réponse en s’appuyant sur ces faits vérifiables. De plus, le graphe permet la vérification a posteriori : on peut comparer les affirmations du LLM aux triplets du graphe pour détecter les incohérences.

Par où commencer pour construire un knowledge graph ?

Commencez petit : un domaine métier délimité (catalogue produits, organigramme, base réglementaire). Choisissez Neo4j (community edition gratuite, excellent outillage) si vous débutez. Importez vos données existantes (CSV, JSON) dans le graphe. Définissez une ontologie simple (types d’entités, types de relations). Connectez le graphe à un LLM via un framework comme LangChain pour tester des requêtes en langage naturel. Itérez : ajoutez des entités, affinez l’ontologie, mesurez la qualité des réponses. Ne cherchez pas à modéliser l’univers entier dès le premier jour.