Linked Data (Données liées)

Le linked data (données liées) est un ensemble de principes de conception pour publier et interconnecter des données structurées sur le web, en utilisant des URIs et le format RDF, afin que les machines puissent naviguer d’un jeu de données à un autre et découvrir automatiquement des informations liées.

Catégorie: Architecture de données / Web sémantique
Défini par: Tim Berners-Lee (W3C, 2006)
Standards: RDF, URIs/IRIs HTTP, SPARQL, JSON-LD
Variante ouverte: Linked Open Data (LOD) : linked data sous licence libre
LOD Cloud: ~1 300 jeux de données interconnectés (snapshot novembre 2024)
Exemples majeurs: DBpedia, Wikidata, GeoNames, UniProt, MusicBrainz, data.gouv.fr
Lien avec l’IA: Knowledge graphs, GraphRAG, entraînement de LLM, agents IA

Les quatre principes du linked data

Tim Berners-Lee a défini en 2006 quatre règles fondamentales pour publier des données liées sur le web :

1. Utiliser des URIs pour identifier les choses. Chaque entité (personne, lieu, concept, document) reçoit un identifiant unique sous forme d’URI. « Paris » n’est plus un simple mot ambigu : c’est http://dbpedia.org/resource/Paris, une référence unique et sans ambiguïté.

2. Utiliser des URIs HTTP déréférençables. Les URIs doivent être accessibles via le protocole HTTP. Quand on accède à l’URI d’une entité, le serveur renvoie des informations utiles sur cette entité (sa description en RDF, une page HTML pour les humains, ou les deux via la négociation de contenu).

3. Fournir des informations utiles en RDF. Quand on accède à un URI, les données retournées doivent être au format RDF (ou un format compatible comme JSON-LD), avec des standards comme SPARQL pour les requêtes. Cela permet aux machines de comprendre et d’exploiter les données automatiquement.

4. Inclure des liens vers d’autres URIs. C’est le principe qui fait la différence entre des données isolées et des données « liées ». Un jeu de données sur les villes françaises doit inclure des liens vers les URIs des régions dans un autre jeu de données, vers les URIs des pays dans un troisième, etc. Ces liens permettent la navigation et la découverte de données connexes.

En résumé : les linked data transforment des silos de données isolés en un réseau interconnecté de données structurées, navigable par les machines comme le web de documents est navigable par les humains via les hyperliens.

Le classement 5 étoiles de Tim Berners-Lee

En 2010, Tim Berners-Lee a proposé un système de notation pour évaluer la qualité des données ouvertes publiées sur le web. Ce classement est devenu un standard de facto pour mesurer la maturité des initiatives open data :

Étoiles	Critère	Exemple
1 étoile	Données disponibles sur le web, dans n’importe quel format, sous licence ouverte	Un PDF de statistiques sur un site gouvernemental
2 étoiles	Données dans un format structuré lisible par machine	Un fichier Excel (.xls) avec des tableaux de données
3 étoiles	Données dans un format ouvert et non propriétaire	Un fichier CSV au lieu d’un Excel
4 étoiles	Données identifiées par des URIs, au format RDF	Des triplets RDF avec des URIs pour chaque entité
5 étoiles	Données liées à d’autres jeux de données via des liens RDF	Des données qui lient leurs entités à DBpedia, Wikidata, GeoNames

L’objectif est d’atteindre les 5 étoiles : des données ouvertes, structurées, dans un format standard, identifiées par des URIs, et interconnectées avec d’autres jeux de données. C’est le « Linked Open Data » (LOD) dans sa forme la plus aboutie.

Le LOD Cloud : le web de données en pratique

Le LOD Cloud (Linked Open Data Cloud) est la visualisation du réseau mondial de jeux de données linked data interconnectés. Maintenu par John P. McCrae (Insight Centre for Data Analytics), le diagramme LOD Cloud est la carte de référence de l’écosystème linked data.

Selon l’analyse de novembre 2024, le LOD Cloud contient environ 1 289 jeux de données répartis en neuf sous-nuages thématiques : Cross Domain, Government, Life Sciences, Linguistics, Geography, Media, Publications, Social Networking et User Generated. Chaque jeu de données doit contenir au moins 1 000 triplets RDF et être relié à au moins 50 liens RDF vers un autre jeu de données du cloud pour être inclus.

Les jeux de données fondateurs du LOD Cloud incluent :

DBpedia. Le projet communautaire qui extrait des données structurées de Wikipédia et les publie en RDF. C’est le hub central du LOD Cloud, le point de connexion vers lequel convergent la plupart des autres jeux de données.

Wikidata. Le knowledge graph collaboratif de la Wikimedia Foundation. Plus de 100 millions d’éléments, multilingue, sous licence CC0. Wikidata a largement supplanté DBpedia comme source de référence pour les linked data structurées.

GeoNames. Données géographiques sur plus de 11 millions de lieux, avec des URIs stables et des liens vers DBpedia et Wikidata.

UniProt. La base de référence en biologie moléculaire (séquences protéiques, fonctions, annotations). L’un des jeux de données linked data les plus riches et les mieux maintenus dans les sciences de la vie.

MusicBrainz. Données ouvertes sur la musique (artistes, albums, titres), utilisées par la BBC Music et de nombreuses applications musicales.

Data.gov / data.gouv.fr. Les portails de données ouvertes des gouvernements américain et français, dont une partie croissante est publiée en linked data.

Qualité variable dans le LOD Cloud Une étude de 2026 (Pellegrino et al., Journal of Data and Information Quality) analyse la qualité des jeux de données du LOD Cloud et révèle des variations significatives entre les sous-nuages. Le sous-nuage Linguistic excelle en qualité de représentation, les Life Sciences sont forts en qualité intrinsèque, mais le sous-nuage User Generated présente des faiblesses en confiance et en représentation. La tendance générale montre une amélioration des licences et de la disponibilité des dumps RDF, mais une dégradation de la disponibilité des fichiers VoID et des endpoints SPARQL. La qualité des linked data n’est pas un acquis : elle nécessite une maintenance active.

Comment fonctionne le linked data en pratique

Triplets et URIs

Chaque fait est exprimé comme un triplet RDF (sujet, prédicat, objet), où chaque élément est identifié par un URI. Exemple en notation Turtle (format RDF concis) :

<http://dbpedia.org/resource/Paris>
    <http://dbpedia.org/ontology/country>
    <http://dbpedia.org/resource/France> .

<http://dbpedia.org/resource/Paris>
    <http://www.w3.org/1999/02/22-rdf-syntax-ns#type>
    <http://dbpedia.org/ontology/City> .

Le premier triplet dit que Paris est dans le pays France. Le second dit que Paris est de type Ville. Les URIs rendent chaque élément unique et permettent à n’importe quel autre jeu de données de faire référence exactement à la même entité « Paris ».

Déréférencement et négociation de contenu

Quand un navigateur web accède à http://dbpedia.org/resource/Paris, il reçoit une page HTML lisible par un humain. Quand un agent logiciel (crawler, application IA) accède à la même URI en demandant du RDF (via un en-tête HTTP Accept), il reçoit la description RDF de Paris. C’est la négociation de contenu : le même URI sert les humains et les machines, avec le format approprié pour chacun.

Liens inter-datasets

La puissance du linked data réside dans les liens entre jeux de données différents. Le prédicat owl:sameAs indique que deux URIs de datasets différents désignent la même entité. Par exemple, http://dbpedia.org/resource/Paris et http://www.wikidata.org/entity/Q90 désignent tous les deux Paris. Ce lien permet à un agent qui navigue DBpedia de « sauter » vers Wikidata et d’enrichir ses connaissances.

Vocabulaires et ontologies du linked data

Le linked data s’appuie sur des vocabulaires partagés (des ontologies légères) qui définissent les types d’entités et de relations. Les plus utilisés :

FOAF (Friend of a Friend). Vocabulaire pour décrire des personnes, leurs propriétés et leurs relations sociales.

Dublin Core. Vocabulaire pour décrire des ressources documentaires (titre, auteur, date, sujet). Standard de fait dans les bibliothèques et les archives.

schema.org. Vocabulaire partagé par les moteurs de recherche pour les données structurées sur le web. Bien que techniquement plus simple que les ontologies OWL, schema.org est le vocabulaire linked data le plus largement déployé.

SKOS (Simple Knowledge Organization System). Vocabulaire pour les thésaurus et les taxonomies. Permet de structurer des vocabulaires contrôlés en RDF.

VoID (Vocabulary of Interlinked Datasets). Vocabulaire pour décrire les jeux de données linked data eux-mêmes : taille, nombre de triplets, liens vers d’autres datasets, endpoint SPARQL.

Applications du linked data

Bibliothèques et patrimoine culturel. C’est le secteur d’adoption le plus mature. La Bibliothèque nationale de Singapour (NLB) a déployé en 2026 un système de recommandation basé sur un knowledge graph RDF et schema.org, reliant livres, articles, photos et vidéos. La Bibliothèque nationale de France (BnF) avec data.bnf.fr, la Library of Congress, et le réseau VIAF (fichier d’autorité virtuel international) utilisent le linked data pour interconnecter leurs catalogues à l’échelle mondiale.

Données ouvertes gouvernementales. L’Union européenne (EU Open Data Portal), les gouvernements américain (data.gov) et français (data.gouv.fr) publient une part croissante de leurs données en linked data. Le projet AKN4EU utilise le linked data pour les données législatives européennes en format machine-readable. Ces données liées permettent de croiser des statistiques démographiques, économiques et géographiques de sources hétérogènes.

Sciences de la vie. Le plus grand écosystème linked data sectoriel. Bio2RDF, UniProt, ChEBI (ontologie chimique), Gene Ontology : les bases biomédicales sont massivement interconnectées en RDF. Les chercheurs peuvent naviguer d’un gène à ses protéines, aux médicaments qui les ciblent, et aux essais cliniques associés, en traversant plusieurs jeux de données liés.

Knowledge graphs d’entreprise. Les knowledge graphs d’entreprise utilisent les principes du linked data (URIs, RDF, ontologies) en interne pour interconnecter des données de sources hétérogènes (CRM, ERP, documentation). La différence avec le LOD public est que ces données sont privées, mais la mécanique technique est identique.

SEO et web. schema.org et JSON-LD sont l’application linked data la plus visible pour le grand public. Chaque balisage schema.org sur un site web est techniquement du linked data : des triplets RDF encodés en JSON-LD qui décrivent les produits, les événements, les recettes, les FAQ, et d’autres entités pour les moteurs de recherche.

IA et LLM. Les jeux de données linked data (Wikidata, DBpedia) servent de données d’entraînement et de grounding pour les LLM et les systèmes RAG. Le GraphRAG exploite directement les structures linked data pour le retrieval sémantique. Les agents IA utilisent les endpoints SPARQL pour interroger des bases de connaissances structurées en temps réel.

Outils pour le linked data

Outil	Usage
GraphDB (Ontotext)	Triple store RDF avec raisonnement, idéal pour les projets linked data d’entreprise
Apache Jena / Fuseki	Framework Java open source pour RDF + serveur SPARQL
Virtuoso (OpenLink)	Base de données hybride (relationnelle + RDF), supporte le linked data à grande échelle
OpenRefine + RDF extension	Nettoyage de données et export en RDF, pour convertir des CSV/Excel en linked data
LODView	Outil de visualisation pour naviguer dans des endpoints linked data via un navigateur web
CKAN	Registre de jeux de données ouvertes, utilisé pour alimenter le LOD Cloud
RDFLib (Python)	Bibliothèque Python pour créer, manipuler et requêter des graphes RDF

Défis du linked data

Maintenance des endpoints. Les endpoints SPARQL publics sont souvent instables ou non maintenus. L’étude LOD Cloud 2024-2025 montre une dégradation de la disponibilité des endpoints SPARQL et des fichiers VoID. Beaucoup de jeux de données sont « publiés et oubliés », sans maintenance continue.

Qualité des données. La qualité varie énormément d’un jeu de données à l’autre. Des données obsolètes, des liens cassés (URIs qui ne résolvent plus), des triplets incorrects ou incomplets dégradent la fiabilité de l’écosystème. Les outils de qualité comme KGHeartBeat évaluent six catégories (accessibilité, contextuel, intrinsèque, dynamicité, confiance, représentation).

Complexité technique. Publier du linked data de qualité 5 étoiles nécessite de maîtriser RDF, les URIs, la négociation de contenu HTTP, les vocabulaires, et la gestion d’un endpoint SPARQL. C’est un investissement technique significatif que beaucoup d’organisations ne peuvent pas se permettre.

Adoption limitée hors niches. En dehors des bibliothèques, des gouvernements, des sciences de la vie et du SEO (schema.org), l’adoption du linked data reste limitée. La majorité des développeurs et des entreprises préfèrent les API REST et JSON classiques aux endpoints SPARQL et au RDF.

Risque du « musée de datasets ». Des chercheurs ont soulevé la question : le LOD Cloud risque-t-il de devenir un musée de jeux de données historiques plutôt qu’un écosystème vivant ? La réponse dépend de la capacité de la communauté à maintenir, mettre à jour et enrichir continuellement les jeux de données existants.

Tendances 2026

JSON-LD comme pont vers le mainstream. JSON-LD rend le linked data accessible aux développeurs web qui connaissent JSON mais pas RDF. C’est le format de facto pour les données structurées sur le web, adopté par Google, schema.org et de nombreuses API. JSON-LD permet de bénéficier des principes du linked data sans la complexité complète de la pile RDF.

Linked data pour l’IA. Le GraphRAG, les knowledge graphs et les agents IA consomment des linked data à grande échelle. Wikidata est utilisé comme source de grounding pour les LLM. Les endpoints SPARQL deviennent des sources de données pour les pipelines RAG. Le linked data retrouve une pertinence stratégique grâce à l’IA générative.

Automatisation de la publication. Les LLM et les outils d’extraction sémantique automatisent la conversion de données non structurées en linked data. Ce qui nécessitait un expert en modélisation RDF peut désormais être partiellement automatisé par un pipeline IA.

Principes FAIR. Les principes FAIR (Findable, Accessible, Interoperable, Reusable) pour les données scientifiques s’alignent naturellement avec le linked data. Une étude ISWC 2025 analyse la « FAIRness » du LOD Cloud, montrant que les principes FAIR et linked data se renforcent mutuellement.

Verdict

Le linked data est l’incarnation pratique du web sémantique. Ses principes (URIs, RDF, liens inter-datasets) sont simples et puissants. Son écosystème (LOD Cloud, Wikidata, DBpedia, schema.org) est mature et étendu. Mais son adoption reste freinée par la complexité technique et le manque de maintenance des jeux de données existants.

En 2026, le linked data vit une seconde jeunesse grâce à l’IA. Les knowledge graphs, le GraphRAG et les agents autonomes consomment et produisent des données liées. Si vous travaillez avec des données structurées en entreprise, les principes du linked data (identifiants uniques, vocabulaires partagés, liens entre sources) améliorent l’interopérabilité et préparent vos données pour les usages IA, même sans déployer la pile RDF complète.

Conseil pratique : commencez par JSON-LD et schema.org sur vos sites web (bénéfices SEO immédiats). Si vous construisez un knowledge graph interne, adoptez les principes du linked data (URIs stables, vocabulaires partagés) même si vous utilisez un property graph (Neo4j) plutôt que du RDF pur. Et si vous publiez des données ouvertes, visez les 5 étoiles : c’est la contribution la plus durable que vous puissiez faire à l’écosystème de données mondial.

Questions fréquentes sur le linked data

Quelle est la différence entre linked data et open data ?

L’open data (données ouvertes) est une question de licence : les données sont publiées sous une licence libre permettant leur réutilisation. Le linked data est une question de format et d’interconnexion : les données sont structurées en RDF avec des URIs et des liens vers d’autres jeux de données. Les deux concepts sont indépendants : des données peuvent être ouvertes mais non liées (un CSV en téléchargement libre), ou liées mais non ouvertes (un knowledge graph d’entreprise privé en RDF). Le Linked Open Data (LOD) combine les deux : des données structurées, interconnectées et sous licence libre.

Faut-il utiliser RDF pour faire du linked data ?

En théorie, RDF est le standard de référence. En pratique, JSON-LD (qui est techniquement du RDF sérialisé en JSON) est le format le plus accessible et le plus adopté. Pour schema.org et le SEO, JSON-LD suffit. Pour un knowledge graph d’entreprise, vous pouvez utiliser un property graph (Neo4j) avec des principes linked data (identifiants stables, vocabulaires partagés) sans RDF pur. Pour contribuer au LOD Cloud ou intégrer des données biomédicales, le RDF (Turtle ou N-Triples) reste nécessaire.

Qu’est-ce que le LOD Cloud ?

Le LOD Cloud (Linked Open Data Cloud) est la visualisation du réseau mondial de jeux de données liées ouvertes. Il contient environ 1 289 jeux de données (snapshot novembre 2024) organisés en neuf domaines (gouvernement, sciences de la vie, linguistique, géographie, etc.). Pour être inclus, un jeu de données doit publier au moins 1 000 triplets RDF et être relié à au moins 50 liens RDF vers un autre dataset du cloud. Le diagramme est maintenu par John P. McCrae et hébergé sur lod-cloud.net.

Le linked data est-il encore pertinent face aux LLM ?

Plus que jamais. Les LLM ont besoin de données structurées et vérifiables pour le grounding (réduction des hallucinations). Le linked data fournit exactement cela : des faits structurés, identifiés par des URIs, interconnectés et interrogeables. Wikidata est l’un des jeux de données linked data les plus utilisés pour entraîner et évaluer les LLM. Le GraphRAG exploite directement les structures linked data. Le linked data et les LLM sont complémentaires : le premier fournit la rigueur factuelle, le second fournit la compréhension du langage naturel.

Comment publier mes données en linked data ?

Étape 1 : choisissez un vocabulaire adapté (schema.org pour le web, Dublin Core pour les documents, un vocabulaire métier si disponible). Étape 2 : attribuez des URIs stables à vos entités. Étape 3 : convertissez vos données en RDF (OpenRefine avec l’extension RDF, RDFLib en Python, ou directement en JSON-LD). Étape 4 : ajoutez des liens vers des datasets externes (Wikidata, GeoNames, DBpedia) via owl:sameAs ou des propriétés de liaison. Étape 5 : publiez via un endpoint SPARQL (Apache Jena Fuseki, GraphDB) ou un dump RDF téléchargeable. Étape 6 : enregistrez votre dataset sur CKAN/DataHub pour l’inclure dans le LOD Cloud.