Web Sémantique (Semantic Web)
Le web sémantique est une extension du World Wide Web, proposée par Tim Berners-Lee (W3C), qui structure les données du web dans des formats interprétables par les machines, permettant aux logiciels de comprendre le sens des informations, pas seulement d’afficher du texte.
- Catégorie
- Architecture du web / Représentation des connaissances
- Visionnaire
- Tim Berners-Lee (inventeur du WWW), W3C
- Standards
- RDF, RDFS, OWL, SPARQL, JSON-LD, schema.org
- Principe
- Passer d’un « web de documents » à un « web de données » liées et sémantiquement typées
- Réalisations
- Google Knowledge Graph, Wikidata, Linked Open Data Cloud, schema.org
- Renaissance 2024-2026
- GraphRAG, knowledge graphs pour LLM, IA neuro-symbolique
La vision : un web que les machines comprennent
Le web « classique » (le web de documents) est conçu pour les humains. Les pages HTML contiennent du texte, des images et des liens. Un humain comprend que « Paris est la capitale de la France » en lisant une page Wikipédia. Mais pour une machine, ce n’est qu’une chaîne de caractères parmi d’autres, sans structure ni sens.
Le web sémantique propose de changer cela en ajoutant une couche de sens structuré aux données du web. Au lieu de simplement afficher « Paris est la capitale de la France », on encode ce fait dans un format que les machines peuvent interpréter : un triplet RDF (Paris, est_capitale_de, France) où chaque élément est identifié par un URI unique et le type de relation est formellement défini.
La vision originale de Tim Berners-Lee (2001) était ambitieuse : un web où les agents logiciels pourraient automatiquement découvrir, intégrer et utiliser les données de sources hétérogènes pour prendre des décisions intelligentes. Cette vision n’a pas été pleinement réalisée dans sa forme originale, mais les technologies qui en sont issues (RDF, OWL, SPARQL, linked data) alimentent aujourd’hui les knowledge graphs, le GraphRAG et l’IA d’entreprise.
La pile technologique du web sémantique
Le web sémantique repose sur un empilement de standards W3C, souvent représenté sous forme de « layer cake » (gâteau à étages) :
| Couche | Standard | Rôle |
|---|---|---|
| Identifiants | URI / IRI | Identifier de manière unique chaque ressource sur le web |
| Syntaxe | XML, JSON-LD, Turtle, N-Triples | Formats de sérialisation des données structurées |
| Modèle de données | RDF (Resource Description Framework) | Représenter les faits sous forme de triplets sujet-prédicat-objet |
| Vocabulaire | RDFS (RDF Schema), SKOS | Définir des hiérarchies de classes et des propriétés de base |
| Ontologie | OWL (Web Ontology Language) | Définir des axiomes, des contraintes et permettre le raisonnement |
| Requêtes | SPARQL | Interroger les données RDF (équivalent du SQL pour les graphes) |
| Règles | SWRL, SHACL | Définir des règles d’inférence et des contraintes de validation |
| Confiance | Signatures, provenance | Vérifier l’origine et la fiabilité des données (partiellement réalisé) |
RDF : le fondement
Le RDF (Resource Description Framework) est la pierre angulaire du web sémantique. Tout fait est exprimé comme un triplet (sujet, prédicat, objet). Chaque élément est identifié par un URI, ce qui le rend unique et déréférençable sur le web. Les triplets forment naturellement un graphe : les sujets et objets sont des noeuds, les prédicats sont des arêtes.
RDF peut être sérialisé en plusieurs formats : RDF/XML (verbeux, historique), Turtle (concis, lisible par l’humain), N-Triples (simple, ligne par ligne), et JSON-LD (intégrable dans le HTML, favori de Google et schema.org). JSON-LD est devenu le format dominant pour les données structurées sur le web grand public.
SPARQL : le langage de requête
SPARQL est le SQL du web sémantique. Il permet d’interroger des données RDF avec des patterns de graphe. Une requête SPARQL typique cherche des triplets qui correspondent à un motif, avec des variables à résoudre. Par exemple : « Trouver toutes les capitales des pays européens » se traduit par un pattern de graphe qui relie Ville, est_capitale_de, Pays et Pays, est_dans, Europe.
SPARQL peut interroger des endpoints publics (des serveurs qui exposent des données RDF via une API). Wikidata expose un endpoint SPARQL public que n’importe qui peut interroger pour extraire des données structurées sur des millions d’entités.
schema.org : le web sémantique pragmatique
En 2011, Google, Microsoft (Bing), Yahoo et Yandex ont lancé schema.org, un vocabulaire partagé pour structurer les données sur les pages web. Au lieu d’utiliser la pile OWL/RDF complète (jugée trop complexe pour les webmasters), schema.org propose un vocabulaire simplifié, intégrable directement dans le HTML via JSON-LD, Microdata ou RDFa.
schema.org est le succès commercial le plus tangible du web sémantique. Quand Google affiche des rich snippets (avis étoilés, recettes, événements, FAQ) dans ses résultats de recherche, ce sont des données schema.org extraites des pages. Des millions de sites utilisent schema.org, ce qui en fait la plus grande implémentation pratique du web sémantique, même si les puristes du W3C la considèrent comme une simplification excessive.
L’histoire du web sémantique : de l’utopie à la renaissance
L’ère fondatrice (2001-2012)
Tim Berners-Lee publie sa vision du web sémantique en 2001 dans Scientific American. Le W3C développe les standards RDF (2004), OWL (2004, révisé en 2012), et SPARQL (2008). Les projets académiques se multiplient : DBpedia (extraction structurée de Wikipédia), le Linked Open Data Cloud (interconnexion de jeux de données RDF publics). Mais l’adoption reste limitée aux cercles académiques et aux grandes institutions (bibliothèques, agences gouvernementales). La complexité des standards (RDF/XML est notoirement verbeux) et le manque d’outils accessibles freinent l’adoption grand public.
L’ère pragmatique (2012-2022)
Google lance son Knowledge Graph en 2012, utilisant les technologies du web sémantique en interne sans exiger que le web entier adopte RDF. schema.org démocratise les données structurées via JSON-LD. Wikidata (2012) devient le plus grand knowledge graph collaboratif et ouvert. Les technologies du web sémantique survivent et prospèrent, mais principalement dans les coulisses des grandes plateformes (Google, Amazon, LinkedIn) et dans des secteurs spécialisés (santé, pharma, bibliothèques).
La renaissance par l’IA (2023-présent)
L’explosion des LLM et du RAG a provoqué une redécouverte des technologies du web sémantique. Le GraphRAG a rendu les knowledge graphs (et donc RDF, OWL, SPARQL) à nouveau stratégiques pour les entreprises. Les knowledge graphs fournissent exactement ce qui manque aux LLM : des connaissances structurées, vérifiables et raisonnables.
Comme le note Towards Data Science, le GraphRAG a « ravivé l’intérêt pour les knowledge graphs de manière similaire au lancement du Google Knowledge Graph en 2012 ». Les acquisitions récentes confirment la tendance : Samsung acquiert Oxford Semantic Technologies (RDFox) en 2024, Ontotext et Semantic Web Company fusionnent pour former Graphwise (octobre 2024), et Neo4j dépasse 200 millions $ d’ARR. Le web sémantique n’a jamais été aussi pertinent pour l’industrie qu’en 2026.
Linked Data : le web sémantique en pratique
Le Linked Data (données liées) est le principe pratique du web sémantique : publier des données structurées sur le web de manière interconnectée. Tim Berners-Lee a défini quatre règles pour les linked data : utiliser des URIs pour identifier les choses, utiliser des URIs HTTP déréférençables, fournir des informations utiles quand on accède à ces URIs (en RDF/SPARQL), et inclure des liens vers d’autres URIs pour découvrir plus de données.
Le classement « 5 étoiles » de Tim Berners-Lee mesure la qualité des données ouvertes : une étoile pour des données disponibles sur le web (PDF), deux pour des données structurées (Excel), trois pour un format ouvert (CSV), quatre pour des URIs (RDF), et cinq pour des données liées à d’autres jeux de données (Linked Open Data).
Le LOD Cloud (Linked Open Data Cloud) comptait plus de 1 500 jeux de données interconnectés en 2023, couvrant des domaines allant de la géographie (GeoNames) à la biologie (UniProt), en passant par la musique (MusicBrainz) et les publications scientifiques (DBLP).
Applications du web sémantique en 2026
SEO et données structurées. schema.org et JSON-LD sont des outils SEO fondamentaux. Les données structurées permettent d’obtenir des rich snippets, des Knowledge Panels et une meilleure compréhension du contenu par les moteurs de recherche. C’est l’application la plus massive et la plus directement rentable du web sémantique.
Knowledge graphs d’entreprise. Les technologies RDF, OWL et SPARQL alimentent les knowledge graphs d’entreprise utilisés pour la gestion des connaissances, la conformité, la détection de fraude et le service client. Le GraphRAG a transformé ces graphes en composants critiques des architectures LLM.
Bibliothèques et patrimoine culturel. La Bibliothèque nationale de Singapour (NLB) a déployé en 2026 un widget de recommandation basé sur un knowledge graph RDF et schema.org, reliant des ressources hétérogènes (livres, articles, photos, vidéos) via des linked data. Les grandes bibliothèques nationales (Library of Congress, BnF) utilisent le web sémantique pour leurs catalogues depuis des années.
Sciences de la vie et santé. Les ontologies biomédicales (SNOMED CT, Gene Ontology) et les bases de données liées (UniProt, ChEBI) forment le plus grand écosystème linked data sectoriel. Le raisonnement OWL est utilisé en production pour la pharmacovigilance et la découverte de médicaments.
IA et agents autonomes. Les agents IA utilisent les données du web sémantique pour comprendre le contexte, naviguer dans les knowledge graphs, et exécuter des actions sur des services web décrits sémantiquement. La capacité d’un agent à comprendre une description de service web en RDF/JSON-LD et à l’invoquer automatiquement est un cas d’usage émergent en IA agentique.
Données ouvertes gouvernementales. De nombreux gouvernements publient leurs données ouvertes en RDF/linked data (data.gov, data.gouv.fr). Cela permet l’interopérabilité entre des jeux de données hétérogènes (géographie, démographie, économie) et facilite la création d’applications citoyennes.
Web sémantique et LLM : complémentarité, pas concurrence
Le web sémantique et les LLM adressent le même problème (faire sens des données) par des approches radicalement différentes :
| Critère | Web sémantique | LLM |
|---|---|---|
| Approche | Symbolique (logique formelle) | Neuronale (statistique) |
| Force | Raisonnement vérifiable, cohérence, interopérabilité | Compréhension du langage, génération, flexibilité |
| Faiblesse | Rigidité, coût de modélisation, complexité | Hallucinations, opacité, absence de raisonnement formel |
| Données | Structurées, annotées, vérifiées | Non structurées, massives, bruitées |
| Mise à jour | Explicite (ajout/modification de triplets) | Ré-entraînement coûteux |
La combinaison des deux est plus puissante que chacun séparément. Le web sémantique fournit la structure, la vérifiabilité et le raisonnement. Le LLM fournit la flexibilité, la compréhension du langage naturel et la génération. C’est exactement ce que fait le GraphRAG : un LLM génère les réponses, un knowledge graph sémantique garantit leur ancrage factuel.
Défis du web sémantique
Complexité technique. L’empilement de standards (RDF, RDFS, OWL, SPARQL, SHACL, SWRL) est intimidant. RDF/XML est notoirement verbeux et difficile à lire. JSON-LD a simplifié l’adoption côté web, mais les outils de modélisation ontologique restent des outils de spécialistes.
Adoption fragmentée. La vision originale d’un web entièrement sémantique n’a pas été réalisée. L’adoption est concentrée dans des niches (grandes entreprises, secteur de la santé, bibliothèques, données ouvertes) plutôt que généralisée. La majorité des développeurs web ne connaît pas RDF.
Formats concurrents. Google préfère JSON-LD et schema.org au RDF pur. Les property graphs (Neo4j, Cypher) concurrencent le RDF pour les knowledge graphs. GraphQL a capté une partie de l’attention qui aurait pu aller à SPARQL. Cette fragmentation complique le choix technologique.
Maintenance des ontologies. Comme pour les ontologies en général, la modélisation initiale et la maintenance continue des vocabulaires sémantiques sont coûteuses et nécessitent des compétences rares.
Tendances 2026
GraphRAG comme catalyseur. Le GraphRAG est le plus grand accélérateur d’adoption des technologies du web sémantique depuis schema.org. Il donne un cas d’usage concret et mesurable (réduction des hallucinations, amélioration de la précision) aux knowledge graphs RDF/OWL.
JSON-LD partout. JSON-LD devient le format de facto pour les données structurées sur le web, les API, et l’intégration avec les LLM. Sa compatibilité avec JSON facilite l’adoption par les développeurs qui ne connaissent pas le monde RDF.
LLM pour la construction sémantique. Les LLM sont utilisés pour annoter sémantiquement des données, construire des ontologies, et convertir des données non structurées en triplets RDF. Le web sémantique devient plus facile à construire grâce à l’IA qu’il est censé servir.
Marché du web sémantique en croissance. Le marché du web sémantique est estimé à 2,71 milliards $ en 2025, avec une projection à 7,73 milliards $ d’ici 2030 (CAGR de 23,3 % selon MarketsandMarkets). La croissance est tirée par les knowledge graphs d’entreprise et les besoins de conformité réglementaire (EU AI Act, GDPR).
Verdict
Le web sémantique n’a pas conquis le web grand public comme Tim Berners-Lee l’imaginait en 2001. Mais ses technologies (RDF, OWL, SPARQL, linked data, schema.org) sont plus vivantes et plus pertinentes que jamais, portées par la vague de l’IA générative et des knowledge graphs. Le web sémantique est passé de « vision académique sous-adoptée » à « infrastructure critique pour l’IA d’entreprise ».
Si vous êtes développeur web, schema.org et JSON-LD sont des compétences essentielles pour le SEO. Si vous construisez des systèmes d’IA d’entreprise, les technologies RDF/OWL/SPARQL sont les fondations de vos knowledge graphs et de vos pipelines GraphRAG. Si vous gérez des données ouvertes, les principes du linked data restent la référence pour l’interopérabilité. Le web sémantique n’est pas mort : il est simplement devenu invisible, car il fonctionne dans les coulisses de Google, Wikidata, et des knowledge graphs d’entreprise qui alimentent les LLM.
Questions fréquentes sur le web sémantique
Quelle est la différence entre le web sémantique et le web classique ?
Le web classique (web de documents) est conçu pour les humains : les pages HTML contiennent du texte et des liens lisibles par les gens, mais opaques pour les machines. Le web sémantique (web de données) ajoute une couche de sens structuré : les données sont encodées dans des formats (RDF, JSON-LD) que les machines peuvent interpréter, permettant la recherche sémantique, le raisonnement automatique, et l’intégration de données hétérogènes. Le web sémantique ne remplace pas le web classique, il l’enrichit.
Le web sémantique est-il mort ?
Non, il est en pleine renaissance. La vision originale d’un web entièrement sémantique n’a pas été réalisée, mais les technologies qui en sont issues sont plus utilisées que jamais. schema.org est déployé sur des millions de sites. Les knowledge graphs (Google, Wikidata, LinkedIn, Amazon) sont construits avec les technologies du web sémantique. Le GraphRAG a ravivé l’intérêt pour RDF, OWL et SPARQL dans le contexte de l’IA générative. Le marché du web sémantique est estimé à 2,71 milliards $ en 2025 et croît de 23 % par an.
Faut-il apprendre RDF et SPARQL en 2026 ?
Cela dépend de votre rôle. Pour un développeur web : JSON-LD et schema.org sont essentiels (SEO, données structurées). Pour un ingénieur data ou IA travaillant sur des knowledge graphs : RDF, SPARQL et les bases d’OWL sont des compétences très demandées et bien rémunérées (les spécialistes graphe senior sont parmi les profils les plus recherchés dans la tech). Pour un développeur LLM/RAG : une compréhension de base des principes du web sémantique aide à concevoir de meilleurs pipelines GraphRAG. Pour un profil non technique : les principes conceptuels (triplets, ontologies, linked data) suffisent.
Quelle est la différence entre schema.org et OWL ?
schema.org est un vocabulaire partagé, simplifié, conçu pour structurer les données sur les pages web (principalement pour le SEO et les moteurs de recherche). OWL est un langage d’ontologie formel, beaucoup plus expressif, qui supporte le raisonnement logique (inférence, vérification de cohérence). schema.org est facile à apprendre et largement adopté. OWL est puissant mais complexe. Pour la plupart des sites web, schema.org suffit. Pour les knowledge graphs d’entreprise nécessitant du raisonnement, OWL est nécessaire.
Comment le web sémantique améliore-t-il l’IA ?
Le web sémantique fournit aux systèmes IA des connaissances structurées, vérifiables et interopérables. Les knowledge graphs alimentés par RDF/OWL réduisent les hallucinations des LLM (une étude 2026 montre une réduction de 63 % à 1,7 % en contexte clinique avec un GraphRAG ontologique). Les ontologies permettent le raisonnement automatique (déduire de nouveaux faits à partir de faits existants). Le linked data permet d’intégrer des sources de données hétérogènes. Et schema.org aide les LLM et les agents IA à comprendre le contenu des pages web.