Ontologie (en Intelligence Artificielle)

En IA, une ontologie est une spécification formelle et explicite des concepts d’un domaine de connaissance, de leurs propriétés et des relations qui les lient, permettant aux machines de comprendre la structure sémantique d’un domaine et de raisonner automatiquement sur ces connaissances.

Catégorie: Représentation des connaissances / Web sémantique
Définition classique: « Une spécification formelle d’une conceptualisation partagée » (Gruber, 1993)
Langage standard: OWL (Web Ontology Language), recommandation W3C
Composants: Classes, propriétés, individus, axiomes, contraintes
Outils: Protégé (Stanford), raisonneurs (Pellet, HermiT, FaCT++)
Lien avec l’IA: Knowledge graphs, GraphRAG, web sémantique, IA neuro-symbolique

Qu’est-ce qu’une ontologie, concrètement

Pensez à l’ontologie comme la grammaire d’un knowledge graph. Le knowledge graph contient les faits (« Paris est la capitale de la France »). L’ontologie définit les règles : quels types d’entités existent (Ville, Pays, Personne), quelles relations sont possibles (est_capitale_de, est_situé_dans, est_président_de), quelles contraintes s’appliquent (un pays ne peut avoir qu’une seule capitale), et quelles inférences sont autorisées (si X est_capitale_de Y, alors X est_situé_dans Y).

Sans ontologie, un knowledge graph est un tas de faits sans structure. Avec une ontologie, il devient un système de connaissances capable de vérifier la cohérence des données, de déduire de nouveaux faits, et d’intégrer des données hétérogènes provenant de sources différentes.

Le terme vient de la philosophie (l’ontologie est l’étude de l’être et de ce qui existe). En informatique, la définition de référence est celle de Tom Gruber (1993) : « une spécification formelle d’une conceptualisation partagée ». « Formelle » signifie lisible par machine. « Conceptualisation » signifie un modèle abstrait du monde. « Partagée » signifie un consensus entre les utilisateurs du domaine.

Les composants d’une ontologie

Classes (concepts)

Les classes représentent les catégories d’entités du domaine. Dans une ontologie médicale : Maladie, Symptôme, Médicament, Traitement, Patient. Dans une ontologie e-commerce : Produit, Catégorie, Marque, Commande, Client. Les classes sont organisées en hiérarchies (taxonomies) : Animal > Mammifère > Chien. Une classe enfant hérite des propriétés de sa classe parente.

Propriétés (relations et attributs)

Les propriétés définissent les relations entre les classes et les attributs des individus. On distingue deux types :

Object properties (propriétés relationnelles) : relient deux individus. « travaille_pour » relie une Personne à une Organisation. « est_symptôme_de » relie un Symptôme à une Maladie. Chaque propriété a un domaine (la classe du sujet) et un range (la classe de l’objet).

Data properties (propriétés d’attribut) : relient un individu à une valeur littérale. « a_pour_nom » relie une Personne à une chaîne de caractères. « a_pour_prix » relie un Produit à un nombre décimal.

Individus (instances)

Les individus sont les instances concrètes des classes. « Paris » est un individu de la classe Ville. « Aspirine » est un individu de la classe Médicament. L’ensemble des individus et de leurs relations forme l’ABox (Assertional Box) de l’ontologie, tandis que la structure des classes et des propriétés forme la TBox (Terminological Box).

Axiomes et contraintes

Les axiomes sont les règles logiques de l’ontologie. Ils définissent ce qui est vrai, possible ou interdit dans le domaine. Exemples : « Chaque Pays a exactement une capitale » (contrainte de cardinalité). « Homme et Femme sont des classes disjointes » (un individu ne peut être les deux). « Si X est_parent_de Y et Y est_parent_de Z, alors X est_grand-parent_de Z » (axiome de transitivité indirecte). Les raisonneurs utilisent ces axiomes pour vérifier la cohérence des données et déduire de nouveaux faits.

OWL : le langage des ontologies

OWL (Web Ontology Language) est le standard W3C pour créer des ontologies sur le web. Basé sur RDF et fondé sur les logiques de description (Description Logics), OWL permet de définir des classes, des propriétés, des contraintes et des axiomes dans un format interprétable par les machines.

Les profils OWL 2

Profil	Caractéristiques	Usage typique
OWL 2 EL	Quantification existentielle, raisonnement polynomial	Grandes ontologies biomédicales (SNOMED CT : 350 000+ concepts)
OWL 2 QL	Optimisé pour les requêtes sur de grands volumes	Intégration de données, ontologies simples avec beaucoup d’individus
OWL 2 RL	Compatible avec les langages de règles	Raisonnement à base de règles, systèmes d’entreprise
OWL 2 DL	Expressivité maximale avec décidabilité	Ontologies complexes nécessitant un raisonnement complet
OWL 2 Full	Expressivité totale, indécidable	Recherche, cas nécessitant le méta-modélisation

Le choix du profil dépend du compromis entre expressivité et performance de raisonnement. SNOMED CT, la plus grande ontologie médicale au monde (plus de 350 000 concepts), utilise OWL 2 EL car le raisonnement doit rester rapide malgré la taille du vocabulaire.

Raisonnement automatique

C’est la capacité distinctive des ontologies par rapport aux simples taxonomies ou schémas de données. Un raisonneur (Pellet, HermiT, FaCT++) prend une ontologie OWL en entrée et peut :

Vérifier la cohérence : détecter les contradictions (une classe ne peut pas être à la fois sous-classe de X et disjointe de X).

Classifier : déterminer les relations de subsomption entre classes (si tout Mammifère est un Animal et tout Chien est un Mammifère, alors tout Chien est un Animal).

Inférer : déduire de nouveaux faits à partir des axiomes. Si l’ontologie définit que « est_capitale_de » implique « est_situé_dans », et que le graphe contient « Paris est_capitale_de France », le raisonneur déduit automatiquement « Paris est_situé_dans France » sans que ce fait ait été explicitement ajouté.

Réaliser : déterminer à quelles classes un individu appartient, en fonction de ses propriétés.

L’ontologie réduit les hallucinations des LLM à 1,7 % Une étude publiée en 2026 (Ali et al., Journal of Biomedical Informatics) a démontré qu’un framework GraphRAG fondé sur une ontologie RDF/OWL clinique atteint 98 % de précision en question-answering médical, contre 37 % pour ChatGPT-4 seul et 52 % pour DeepSeek-R1. Le taux d’hallucination passe de 63 % (ChatGPT-4 sans ontologie) à 1,7 % avec l’approche ontologique. La structure sémantique de l’ontologie force le LLM à ancrer ses réponses dans des faits vérifiés et structurés.

Types d’ontologies

Ontologie de domaine. Modélise un domaine spécifique : médecine (SNOMED CT, Gene Ontology), finance (FIBO), géographie (GeoNames), droit. C’est le type le plus courant en pratique.

Ontologie de haut niveau (upper ontology). Définit des concepts très généraux (Objet, Événement, Processus, Temps, Espace) indépendants de tout domaine. Exemples : DOLCE, BFO (Basic Formal Ontology), SUMO. Ces ontologies servent de cadre de référence pour aligner des ontologies de domaine entre elles.

Ontologie d’application. Spécifique à un système ou un cas d’usage particulier. Par exemple, l’ontologie interne d’un système de recommandation e-commerce.

Taxonomie / Thésaurus. Formes simplifiées d’ontologies, sans axiomes ni raisonnement formel. SKOS (Simple Knowledge Organization System) est le standard W3C pour les vocabulaires contrôlés et les thésaurus. Beaucoup d’organisations commencent par une taxonomie et enrichissent vers une ontologie complète au fil du temps.

Ontologies majeures

SNOMED CT. La terminologie médicale de référence. Plus de 350 000 concepts, 1,5 million de relations, utilisée dans les systèmes de santé de plus de 40 pays. Exprimée en OWL 2 EL, elle standardise les dossiers médicaux et permet l’interopérabilité entre systèmes hospitaliers.

Gene Ontology (GO). Fondamentale pour la bioinformatique depuis plus de 20 ans. Modélise les fonctions moléculaires, les processus biologiques et les composants cellulaires des gènes. Permet aux chercheurs de requêter « quels gènes participent à ce processus biologique ? » à travers des bases de données hétérogènes.

FIBO (Financial Industry Business Ontology). Ontologie standardisée du secteur financier, développée par l’EDM Council. Couvre les instruments financiers, les entités juridiques, les contrats et les transactions. Utilisée pour la conformité réglementaire et le reporting.

schema.org. Le vocabulaire partagé par Google, Microsoft (Bing), Yahoo et Yandex pour structurer les données sur le web. Techniquement un vocabulaire RDF plutôt qu’une ontologie OWL complète, mais il joue un rôle ontologique dans l’écosystème web en définissant les types d’entités et leurs propriétés pour le web sémantique.

Ontologies et IA moderne

IA neuro-symbolique

L’IA neuro-symbolique combine les réseaux de neurones (apprentissage à partir de données) avec le raisonnement symbolique (logique formelle, ontologies). Les LLM excellent en compréhension et génération de langage mais peinent en raisonnement logique strict et en vérification factuelle. Les ontologies fournissent exactement ce que les LLM n’ont pas : une structure de connaissances formelle, vérifiable et raisonnable. La combinaison des deux est un domaine de recherche très actif en 2026.

Ontologies pour le GraphRAG

Un knowledge graph sans ontologie est un tas de relations non typées. Avec une ontologie bien conçue, le GraphRAG peut exploiter la structure hiérarchique (si vous cherchez des « véhicules », l’ontologie sait que « berline », « SUV » et « camionnette » sont des sous-classes de « véhicule »), les relations inverses (si A est_parent_de B, alors B est_enfant_de A), et les contraintes (un médicament ne peut interagir qu’avec un autre médicament ou une substance, pas avec un lieu). Cela améliore drastiquement la précision du retrieval.

Construction automatique d’ontologies

Construire une ontologie manuellement est coûteux et lent. Les approches modernes utilisent des Transformers et des LLM pour extraire automatiquement des concepts et des relations à partir de texte non structuré. Des travaux récents (2026) proposent des pipelines de bout en bout qui génèrent des axiomes OWL (hiérarchies de classes, restrictions de domaine/range, assertions) à partir d’extractions neuronales, avec vérification de cohérence par des raisonneurs OWL. Cette approche réduit le besoin d’expertise manuelle en modélisation ontologique.

Applications des ontologies

Santé et sciences de la vie. Les ontologies médicales (SNOMED CT, Gene Ontology, Disease Ontology) standardisent les vocabulaires, permettent l’interopérabilité des dossiers patients, et alimentent les systèmes d’aide à la décision clinique. C’est le domaine d’application le plus mature.

Finance et conformité. FIBO et les ontologies réglementaires structurent la reporting financier, la détection de fraude et la conformité aux réglementations (GDPR, EU AI Act). Les graphes de connaissances ontologiques permettent de tracer les flux financiers et de vérifier la conformité automatiquement.

E-commerce et recommandation. Les ontologies de produits structurent les catalogues, permettent la recherche sémantique (« montre étanche pour la plongée » trouve des montres classées sous Montre > Sport > Plongée, même sans le mot « plongée » dans la description), et améliorent la qualité des recommandations.

IoT et smart cities. Les ontologies garantissent l’interopérabilité entre des appareils et des systèmes hétérogènes (capteurs de température, caméras de trafic, systèmes de transport) qui parlent des « langages » différents.

Industrie 4.0. Les ontologies de processus de fabrication (matériaux, machines, paramètres de production) alimentent les jumeaux numériques et les systèmes de maintenance prédictive.

Outils pour les ontologies

Outil	Type	Usage
Protégé (Stanford)	Éditeur d’ontologies	L’outil open source de référence pour créer et éditer des ontologies OWL
HermiT, Pellet, FaCT++	Raisonneurs	Vérification de cohérence, classification, inférence automatique
SPARQL	Langage de requête	Interrogation de données RDF/OWL
SHACL	Validation	Définition de contraintes et de règles de validation sur les données RDF
Apache Jena	Framework Java	Manipulation de RDF/OWL, raisonnement, stockage de triplets
Owlready2	Bibliothèque Python	Manipulation d’ontologies OWL en Python, interface avec les raisonneurs

Défis

Coût de modélisation. Concevoir une ontologie de qualité requiert une expertise en logique formelle, en modélisation de domaine et une collaboration étroite avec les experts métier. C’est un processus intellectuellement exigeant et chronophage. Les outils de construction automatique atténuent le problème mais ne l’éliminent pas.

Maintenance. Les domaines évoluent. De nouveaux concepts, de nouvelles relations et de nouvelles contraintes apparaissent. Maintenir une ontologie à jour est un coût récurrent souvent sous-estimé. La plupart des coûts du cycle de vie d’une ontologie sont dans la maintenance, pas dans la construction initiale.

Scalabilité du raisonnement. Le raisonnement OWL peut être coûteux en calcul, surtout avec les profils expressifs (OWL 2 DL, OWL 2 Full). Les grandes ontologies (SNOMED CT avec 350 000+ concepts) nécessitent des profils restreints (OWL 2 EL) et des optimisations spécifiques pour que le raisonnement reste praticable.

Adoption en entreprise. Les compétences OWL/SPARQL sont rares. L’écosystème d’outils est moins mature que celui des bases relationnelles. Beaucoup d’organisations choisissent des approches plus légères (taxonomies, schémas JSON) au détriment de l’expressivité, faute de compétences ontologiques.

Tendances 2026

Ontologies + LLM. Les LLM sont utilisés pour construire, enrichir et interroger les ontologies. Les pipelines automatisés extraient des ontologies à partir de texte. Les LLM interrogent les ontologies en langage naturel (pas besoin de maîtriser SPARQL). C’est un cercle vertueux : l’ontologie améliore le LLM (grounding, réduction d’hallucinations), le LLM démocratise l’ontologie (construction et accès simplifiés).

Ontologies légères. L’approche « ML Ontology » (2026) montre qu’une ontologie RDF/RDFS légère (sans la complexité complète d’OWL) peut suffire pour beaucoup d’applications industrielles, avec un raisonnement basé sur SPARQL et SHACL plutôt que sur les logiques de description.

Convergence ontologie et semantic layer. Les ontologies et les semantic layers (couches sémantiques du BI) convergent. Les ontologies optimisent pour le sens et le raisonnement, les semantic layers pour les métriques et le reporting. La tendance est à des architectures qui combinent les deux pour offrir à la fois des insights analytiques et du raisonnement sémantique.

Verdict

Les ontologies sont le chaînon manquant entre les LLM et le raisonnement fiable. Un LLM sait générer du texte fluide. Une ontologie sait ce qui est vrai, cohérent et logiquement possible dans un domaine. Combiner les deux produit des systèmes IA qui sont à la fois expressifs et vérifiables, ce qui est exactement ce que demandent les secteurs régulés (santé, finance, juridique).

Si vous déployez un GraphRAG en entreprise, investissez dans une ontologie, même minimale. Une taxonomie bien structurée avec des relations typées améliorera votre retrieval de manière significative. Vous n’avez pas besoin de maîtriser OWL dès le départ : commencez avec une taxonomie simple dans Protégé, validez avec les experts métier, et enrichissez progressivement. L’outil le plus important n’est pas le raisonneur, c’est la conversation avec les experts du domaine.

Questions fréquentes sur les ontologies

Quelle est la différence entre une ontologie et une taxonomie ?

Une taxonomie est une hiérarchie de concepts (Animal > Mammifère > Chien). C’est un arbre de classification. Une ontologie va plus loin : elle ajoute des propriétés typées (un Chien a_pour_propriétaire une Personne), des axiomes logiques (tout Mammifère est un Animal à sang chaud), des contraintes (un Chien ne peut pas être un Poisson), et supporte le raisonnement automatique. Une taxonomie est un sous-ensemble d’une ontologie. En pratique, beaucoup de projets commencent par une taxonomie et évoluent vers une ontologie.

Quelle est la différence entre une ontologie et un knowledge graph ?

Un knowledge graph contient les faits (instances, données). L’ontologie définit la structure (types, relations, contraintes). En termes formels, le knowledge graph est l’ABox (données), l’ontologie est la TBox (schéma). En pratique, les deux sont souvent combinés : le knowledge graph stocke « Paris est_capitale_de France » et l’ontologie définit que « est_capitale_de » est une relation entre Ville et Pays, avec une contrainte de cardinalité (un pays a une seule capitale).

Faut-il connaître la logique formelle pour utiliser des ontologies ?

Pour utiliser une ontologie existante (SNOMED CT, schema.org), non : les outils graphiques comme Protégé permettent de naviguer et d’éditer visuellement. Pour concevoir une ontologie complexe avec des axiomes, une connaissance de base des logiques de description (subsomption, disjonction, restriction de cardinalité) est utile. Pour les applications courantes, commencer avec RDFS ou SKOS (plus simples qu’OWL) est suffisant. Les LLM peuvent aussi aider à formuler les axiomes en SPARQL ou OWL à partir de descriptions en langage naturel.

Les LLM rendent-ils les ontologies obsolètes ?

Non, au contraire : ils les rendent plus utiles. Les LLM sont excellents en traitement du langage mais faibles en raisonnement logique formel et en vérification factuelle. Les ontologies fournissent exactement ce qui manque aux LLM : une structure de connaissances vérifiable et raisonnable. L’étude Ali et al. (2026) montre qu’un GraphRAG fondé sur une ontologie OWL réduit les hallucinations de 63 % à 1,7 % en contexte clinique. Les ontologies et les LLM sont complémentaires, pas concurrents.

Par quel outil commencer pour créer une ontologie ?

Protégé (Stanford, gratuit, open source) est le standard pour l’édition d’ontologies OWL. Il offre une interface graphique pour définir des classes, des propriétés et des axiomes sans écrire de code. Pour une approche plus légère, schema.org est un bon point de départ conceptuel. En Python, Owlready2 permet de manipuler des ontologies OWL programmatiquement. Pour le stockage et l’interrogation, GraphDB (Ontotext) ou Stardog offrent des environnements intégrés. Et si vous voulez simplement commencer avec une taxonomie, un fichier SKOS dans un triple store suffit pour un premier prototype.