Wikidata

Wikidata est le knowledge graph libre, collaboratif et multilingue de la Wikimedia Foundation, qui structure les connaissances du monde sous forme de données liées (items, propriétés, déclarations) accessibles gratuitement par les humains et les machines via une API et un endpoint SPARQL.

Catégorie: Knowledge graph ouvert / Linked Open Data
Opérateur: Wikimedia Foundation (même fondation que Wikipédia)
Lancement: Octobre 2012
Taille: 120+ millions d’items, 13 249 propriétés, 2,45 milliards d’éditions
Contributeurs: ~36 000 utilisateurs actifs
Licence: CC0 (domaine public, réutilisation sans restriction)
Accès données: SPARQL endpoint, API REST/JSON, dumps RDF complets
Logiciel: Wikibase (open source, réutilisable par d’autres projets)

Qu’est-ce que Wikidata et pourquoi c’est important

Wikidata est à Wikipédia ce qu’une base de données est à un livre. Wikipédia contient des articles en texte libre, écrits par des humains pour des humains. Wikidata contient les mêmes connaissances mais sous forme structurée, exploitable par les machines. La date de naissance d’Albert Einstein n’est pas enfouie dans un paragraphe : c’est une propriété (P569) avec une valeur précise (14 mars 1879) rattachée à l’item Albert Einstein (Q937).

Cette structuration change tout. Au lieu de lire 300 langues de Wikipédia pour trouver une information, un programme interroge Wikidata une seule fois et obtient la réponse dans toutes les langues. Les infoboxes de Wikipédia sont largement alimentées par Wikidata. Google utilise Wikidata pour enrichir son Knowledge Graph. Les plateformes de fact-checking s’en servent pour vérifier des affirmations factuelles. Les chercheurs en IA l’exploitent comme source de données d’entraînement et de grounding pour les LLM.

Wikidata est sous licence CC0 (domaine public). N’importe qui peut réutiliser, modifier et redistribuer ses données sans aucune restriction, y compris à des fins commerciales. C’est le plus grand knowledge graph totalement libre au monde.

Comment Wikidata est structuré

Items (éléments)

Un item représente une entité du monde réel : une personne, un lieu, un concept, une œuvre, un événement. Chaque item possède un identifiant unique en Q (ex: Q42 pour Douglas Adams, Q90 pour Paris, Q937 pour Albert Einstein). Wikidata contient actuellement plus de 120 millions d’items.

Chaque item a des labels (noms) dans de multiples langues, des descriptions courtes pour le désambiguïser, et des alias (noms alternatifs). Paris (Q90) a le label « Paris » en français, « París » en espagnol, « 巴黎 » en chinois, et des alias comme « Ville Lumière ».

Propriétés (properties)

Les propriétés définissent les types de relations et d’attributs. Wikidata compte 13 249 propriétés, chacune identifiée par un ID en P. Les plus utilisées incluent : instance de (P31, la propriété la plus fondamentale : « Paris est une instance de ville »), pays (P17), date de naissance (P569), coordonnées géographiques (P625), image (P18), identifiant GND (P227), et site officiel (P856).

Chaque propriété a un type de données (item, chaîne de caractères, date, coordonnées, URL, quantité, etc.) et des contraintes (par exemple, P569 « date de naissance » ne s’applique qu’aux entités de type humain ou animal).

Déclarations (statements)

Les déclarations sont les faits enregistrés dans Wikidata. Chaque déclaration associe un item à une propriété et une valeur. Par exemple : Albert Einstein (Q937) → lieu de naissance (P19) → Ulm (Q3012). Une déclaration peut être enrichie par des qualificatifs (la date d’un mandat politique, le rang d’un classement) et des références (la source qui atteste le fait).

Ce système de références est crucial pour la fiabilité. Chaque fait peut être sourçé par une URL, un ouvrage, ou un identifiant externe. C’est ce qui distingue Wikidata d’un simple dump de données : les faits sont vérifiables et traçables.

Lexèmes

Depuis 2018, Wikidata inclut aussi des données linguistiques sous forme de lexèmes. Un lexème représente un mot ou une expression, avec ses formes (conjugaisons, déclinaisons), ses sens, et ses traductions. C’est un apport important pour le NLP multilingue et les dictionnaires computationnels.

Accéder aux données de Wikidata

SPARQL : la requête puissante

Wikidata expose un endpoint SPARQL public (query.wikidata.org) que n’importe qui peut interroger gratuitement. SPARQL permet des requêtes arbitrairement complexes sur les 120 millions d’items. Quelques exemples de ce qu’on peut demander :

« Toutes les femmes scientifiques nées en France après 1900 avec un article Wikipédia en anglais. » « Les 50 villes les plus peuplées d’Afrique, avec leurs coordonnées et leur pays. » « Tous les films réalisés par des personnes qui ont aussi réalisé des séries TV. » « La liste des protéines humaines liées au diabète de type 2. »

Ces requêtes seraient impossibles ou extrêmement complexes dans une base relationnelle traditionnelle. Dans le graphe Wikidata, elles se traduisent en quelques lignes de SPARQL. L’endpoint Wikidata Query Service est l’un des services SPARQL publics les plus utilisés au monde, traitant des millions de requêtes par jour. Wikidata propose même un assistant basé sur l’IA (Spinach) pour formuler des requêtes SPARQL en langage naturel, abaissant considérablement la barrière d’entrée pour les non-spécialistes.

Le service de requête inclut aussi un outil de visualisation qui génère automatiquement des graphiques, des cartes et des chronologies à partir des résultats SPARQL, ce qui rend l’exploration des données accessible même sans compétences en programmation.

API et dumps

L’API Wikidata permet des accès programmatiques en JSON (recherche d’items, récupération de propriétés, modifications). Les dumps complets en JSON et RDF sont téléchargeables gratuitement pour les usages nécessitant un accès local (entraînement de modèles IA, analyses à grande échelle). Le dump JSON complet fait plusieurs dizaines de gigaoctets compressés.

Wikibase : le logiciel derrière Wikidata

Wikibase est le logiciel open source qui fait tourner Wikidata. N’importe quelle organisation peut installer Wikibase pour créer son propre knowledge graph collaboratif, avec la même structure (items, propriétés, déclarations, SPARQL). Des institutions comme le Rhizome (art numérique), la Bibliothèque nationale de France, et des projets de recherche utilisent des instances Wikibase indépendantes pour leurs données spécialisées.

Usages de Wikidata

Alimenter Wikipédia

L’usage originel. Les infoboxes (encadrés de données à droite des articles Wikipédia) sont largement alimentées par Wikidata. Quand la population d’une ville est mise à jour dans Wikidata, l’infobox se met à jour automatiquement dans toutes les langues de Wikipédia. Cela évite les incohérences entre les 300+ versions linguistiques de Wikipédia.

Google Knowledge Graph et moteurs de recherche

Google utilise Wikidata comme l’une des sources principales de son Knowledge Graph. Les panneaux d’information qui apparaissent à droite des résultats de recherche (date de naissance, nationalité, œuvres principales d’une personnalité) sont en partie alimentés par Wikidata. D’autres moteurs de recherche et assistants vocaux (Siri, Alexa) s’en servent également.

IA et LLM

Wikidata joue un rôle croissant dans l’écosystème IA :

Données d’entraînement. Les données structurées de Wikidata sont utilisées pour pré-entraîner et évaluer les modèles de langage sur des tâches de knowledge-intensive QA (question-answering nécessitant des connaissances factuelles).

Grounding pour le RAG. Le GraphRAG peut interroger Wikidata en temps réel via SPARQL pour ancrer les réponses des LLM dans des faits vérifiés. Cela réduit les hallucinations sur les questions factuelles (dates, lieux, relations entre personnes).

Évaluation de modèles. Des benchmarks comme KILT (Knowledge Intensive Language Tasks) utilisent Wikidata et Wikipédia pour évaluer la capacité des modèles à répondre à des questions factuelles.

Entity linking. Wikidata sert de référence pour l’entity linking : associer une mention dans un texte (« Macron ») à l’entité correspondante dans le knowledge graph (Q3052772, Emmanuel Macron). C’est une brique fondamentale du NLP moderne.

Fact-checking et vérification

Des plateformes de vérification factuelle utilisent Wikidata pour valider automatiquement des affirmations. « Le Brésil est le plus grand pays d’Amérique du Sud » peut être vérifié programmatiquement en interrogeant les données de superficie des pays du continent.

Culture, patrimoine et recherche

Des musées, des bibliothèques et des archives utilisent Wikidata pour relier leurs collections à un référentiel mondial. Le sum of all paintings project vise à documenter toutes les peintures du monde dans Wikidata. Les données géographiques, historiques et scientifiques de Wikidata alimentent des projets de recherche dans des dizaines de disciplines.

Forces de Wikidata

Multilingue natif. Chaque item a des labels dans des centaines de langues. Les données sont indépendantes de la langue : la relation « Paris est_capitale_de France » est la même que vous l’interrogiez en français, en japonais ou en arabe.

Licence CC0. Aucune restriction de réutilisation. C’est le knowledge graph le plus permissif au monde, ce qui facilite son adoption par les entreprises, les chercheurs et les développeurs.

Communauté active. 36 000 utilisateurs actifs, des WikiProjects thématiques (WikiProject Women pour combler le gender gap, WikiProject Medicine pour les données médicales), et une conférence annuelle (WikidataCon). La gouvernance est collaborative et transparente.

Interopérable. Wikidata est un nœud central du Linked Open Data Cloud. Ses items sont liés à des identifiants externes (VIAF, GND, ISNI, IMDb, MusicBrainz), ce qui le connecte à des centaines d’autres bases de données.

Logiciel réutilisable. Wikibase permet à toute organisation de créer son propre knowledge graph avec la même technologie, sans dépendre de Wikimedia.

Limites et défis

Qualité variable. Wikidata est édité par des volontaires, avec un contrôle qualité variable. Certains items sont excellemment documentés (personnalités célèbres, grandes villes), d’autres sont incomplets ou contiennent des erreurs. Le vandalisme existe, même s’il est détecté rapidement grâce à des outils automatisés.

Biais de couverture. Comme Wikipédia, Wikidata souffre de biais de couverture : les sujets occidentaux, anglophones et masculins sont sur-représentés. En 2026, Wikidata compte environ 1,6 million de biographies d’hommes contre 417 000 de femmes (ratio similaire à Wikipédia anglophone). Les WikiProjects thématiques travaillent à corriger ces déséquilibres.

Complexité de contribution. Le modèle de données de Wikidata (items, propriétés, qualificatifs, références, rangs) est puissant mais complexe pour les nouveaux contributeurs. L’interface d’édition s’améliore (recherche par type d’entité ajoutée en 2025, prototype d’édition mobile en 2025), mais la courbe d’apprentissage reste significative.

Pas de texte libre. Wikidata ne contient que des données structurées, pas de texte narratif. Pour des informations contextuelles ou nuancées, il faut combiner Wikidata avec Wikipédia ou d’autres sources textuelles. C’est une limitation de conception, pas un bug : Wikidata vise la précision factuelle structurée, pas l’explication encyclopédique.

Dépendance aux bots. Une proportion significative des éditions sur Wikidata est effectuée par des bots automatisés (importation de données depuis des bases externes, maintenance de liens interwiki). Cela garantit un volume de données impressionnant mais peut introduire des erreurs systématiques si les sources d’import sont elles-mêmes incorrectes. La communauté surveille activement l’activité des bots via des outils de monitoring dédiés.

Performance SPARQL. L’endpoint SPARQL public a des limites de timeout (60 secondes) et de débit. Les requêtes complexes sur les 120 millions d’items peuvent échouer. Pour des analyses lourdes, le téléchargement des dumps est recommandé.

Tendances 2026

Wikidata comme socle du GraphRAG ouvert. L’utilisation de Wikidata comme source de grounding pour les LLM et les pipelines RAG s’intensifie. Son endpoint SPARQL devient une API de connaissances factuelles pour les agents IA.

Requêtes en langage naturel. L’assistant Spinach permet de formuler des requêtes SPARQL en langage naturel, abaissant la barrière d’entrée pour les non-spécialistes. D’autres outils similaires émergent, utilisant des LLM pour générer du SPARQL à partir de questions en français, anglais ou d’autres langues.

Comptes temporaires. Depuis novembre 2025, les éditeurs non enregistrés reçoivent automatiquement un compte temporaire au lieu d’être identifiés par leur adresse IP. Cela améliore la vie privée tout en maintenant la traçabilité des modifications.

Données linguistiques (lexèmes). L’enrichissement des données lexicographiques (mots, formes, sens) fait de Wikidata une ressource de plus en plus précieuse pour le NLP multilingue, les dictionnaires computationnels et la traduction automatique.

Instances Wikibase sectorielles. Des organisations créent leurs propres instances Wikibase pour des données spécialisées (patrimoine culturel, données scientifiques, données réglementaires), liées à Wikidata central via des propriétés de correspondance.

Verdict

Wikidata est le knowledge graph ouvert le plus important au monde. Avec 120 millions d’items, un endpoint SPARQL gratuit, une licence CC0 et une communauté active de 36 000 contributeurs, c’est une ressource incontournable pour quiconque travaille avec des données structurées, du linked data ou de l’IA.

Pour les développeurs IA : Wikidata est un terrain de jeu idéal pour prototyper des systèmes RAG, tester l’entity linking, ou évaluer des modèles de question-answering sur des données factuelles vérifiées. Pour les data scientists : c’est une source de données d’une richesse inégalée, couvrant pratiquement tous les domaines de la connaissance humaine. Pour les organisations : Wikibase permet de construire un knowledge graph interne avec la même technologie, connecté à l’écosystème Wikidata mondial.

Le conseil principal : apprenez les bases de SPARQL. C’est l’investissement en compétences le plus rentable pour exploiter Wikidata. Quelques heures d’apprentissage vous donnent accès à 120 millions d’entités structurées, gratuitement.

Questions fréquentes sur Wikidata

Quelle est la différence entre Wikidata et Wikipédia ?

Wikipédia contient des articles en texte libre, rédigés par des humains pour des humains. Wikidata contient les mêmes connaissances mais sous forme de données structurées (items, propriétés, valeurs), exploitables par les machines. Wikidata alimente les infoboxes de Wikipédia. Les deux projets sont gérés par la Wikimedia Foundation mais ont des communautés et des processus éditoriaux distincts. On peut voir Wikidata comme la « base de données » derrière l’« encyclopédie » Wikipédia.

Wikidata est-il fiable pour un usage professionnel ?

Cela dépend du domaine et de la criticité. Pour les données factuelles de base (dates, lieux, relations de parenté de personnalités publiques), Wikidata est très fiable et souvent plus à jour que d’autres sources. Pour les données spécialisées (médicales, scientifiques), la qualité varie : vérifiez toujours les références citées. Pour un usage en production, il est recommandé de croiser Wikidata avec d’autres sources et d’implémenter des contrôles de qualité. La licence CC0 permet une utilisation commerciale sans restriction.

Comment contribuer à Wikidata ?

Créez un compte sur wikidata.org. Commencez par améliorer des items existants (ajouter des labels en français, compléter des propriétés manquantes, ajouter des références). Rejoignez un WikiProject qui correspond à vos intérêts (WikiProject France, WikiProject Medicine, WikiProject Women). Des tutoriels interactifs sont disponibles directement sur le site. Les organisations peuvent aussi faire des dons de données en masse via des outils d’import comme QuickStatements ou OpenRefine.

Peut-on utiliser Wikidata pour entraîner un modèle IA ?

Oui, et c’est encouragé. La licence CC0 permet toute réutilisation sans restriction. Les dumps JSON et RDF complets sont téléchargeables gratuitement. Wikidata est utilisé dans de nombreux travaux de recherche IA : entity linking, question-answering, knowledge base completion, et évaluation de modèles. Pour un usage de production avec un LLM, l’endpoint SPARQL permet des requêtes en temps réel, et les dumps permettent un accès local à grande échelle.

Qu’est-ce que Wikibase et puis-je l’utiliser pour mon projet ?

Wikibase est le logiciel open source qui fait fonctionner Wikidata. Vous pouvez l’installer sur vos propres serveurs pour créer un knowledge graph collaboratif privé avec la même structure que Wikidata (items, propriétés, SPARQL). C’est utile pour les organisations qui veulent un knowledge graph interne structuré mais connecté à l’écosystème Wikidata mondial. Des institutions comme la Bibliothèque nationale de France et des projets de recherche scientifique utilisent des instances Wikibase indépendantes.