XAI (eXplainable Artificial Intelligence)

XAI (eXplainable Artificial Intelligence, ou IA explicable) est le champ de recherche et de pratique dédié à la création de systèmes d’intelligence artificielle dont les décisions, le raisonnement et les limites sont compréhensibles par des humains. L’objectif est de passer de modèles « boîtes noires » à des systèmes transparents, vérifiables et dignes de confiance.

Nom complet: eXplainable Artificial Intelligence
Origine: Programme DARPA XAI (2017), première conférence dédiée IJCAI Workshop on XAI (2017)
Trois principes: Transparence, interprétabilité, explicabilité
Quatre axes: Explicabilité des données, du modèle, post-hoc, évaluation des explications
Relation: XAI est le champ disciplinaire. L’explainability est la propriété. LIME et SHAP sont des techniques.
Cadre réglementaire: EU AI Act, RGPD (art. 22), DARPA XAI, NIST AI RMF
Termes liés: Explainability, LIME, Fairness, Biais

XAI : du programme DARPA au champ disciplinaire

Le terme XAI a été popularisé par le programme DARPA XAI, lancé en 2017 par l’agence de recherche du Département de la Défense américain. L’objectif était de créer des techniques de machine learning qui produisent des modèles plus explicables tout en maintenant un haut niveau de performance, et de permettre aux utilisateurs humains de comprendre, de faire confiance de manière appropriée, et de gérer efficacement les systèmes IA.

Le programme DARPA a posé les bases du champ en identifiant le compromis central de l’XAI : les modèles les plus performants (réseaux de neurones profonds, ensembles) sont les moins interprétables, tandis que les modèles les plus interprétables (régressions linéaires, arbres de décision simples) sont souvent les moins performants. L’XAI cherche à réduire ce compromis en ajoutant de l’explicabilité aux modèles complexes sans trop sacrifier la performance.

Depuis 2017, le champ a explosé. Des centaines de publications annuelles, des conférences dédiées (xAI World Conference), des workshops dans toutes les grandes conférences ML (NeurIPS, ICML, AAAI), et une croissance exponentielle des publications, même pendant le ralentissement des investissements IA en 2022. La discipline est devenue incontournable avec l’adoption de l’EU AI Act et les exigences réglementaires de transparence.

Les trois principes fondamentaux

Le XAI repose sur trois principes distincts mais complémentaires :

Transparence : un modèle est transparent quand les processus qui extraient ses paramètres des données d’entraînement et qui génèrent ses prédictions à partir des données de test peuvent être décrits et motivés. La transparence concerne le « comment » : comment le modèle a été construit, avec quelles données, selon quels choix de conception.

Interprétabilité : la capacité d’un humain à comprendre le fonctionnement interne du modèle. Un modèle interprétable est un modèle dont la structure est suffisamment simple pour être comprise directement. C’est une propriété du modèle lui-même.

Explicabilité : la capacité de fournir des explications compréhensibles des décisions du modèle, même si le modèle est une boîte noire. L’explicabilité peut être ajoutée après coup (post-hoc) via des outils comme SHAP ou LIME. C’est une propriété de l’écosystème autour du modèle.

Ces trois principes forment une hiérarchie : la transparence est la fondation (comprendre comment le système a été construit), l’interprétabilité est le niveau intermédiaire (comprendre comment il fonctionne), et l’explicabilité est le niveau supérieur (comprendre pourquoi il prend une décision spécifique).

Taxonomie : les quatre axes de l’XAI

Une revue de référence (Saeed & Omlin, 2023) propose une taxonomie hiérarchique en quatre axes, devenue un cadre de référence dans le champ :

Axe 1 : Explicabilité des données

Comprendre les données qui ont servi à entraîner le modèle. Quelles données sont incluses ? Quels biais contiennent-elles ? Comment les données influencent-elles les décisions du modèle ? Cet axe inclut l’exploration de données, la détection de biais dans les datasets, et la documentation de la provenance des données (data lineage).

L’explicabilité des données est souvent négligée au profit de l’explicabilité du modèle, mais elle est fondamentale : un modèle entraîné sur des données biaisées produira des décisions biaisées, quelle que soit la qualité de l’explicabilité post-hoc.

Axe 2 : Explicabilité du modèle

Comprendre l’architecture et le fonctionnement interne du modèle. Cet axe couvre les modèles intrinsèquement interprétables (régressions linéaires, arbres de décision, règles) et les techniques qui rendent les modèles complexes plus transparents (visualisation d’attention dans les Transformers, model distillation, mechanistic interpretability).

Pour les LLM, la mechanistic interpretability (poussée notamment par Anthropic et MIT) vise à comprendre quels circuits de neurones encodent quels concepts. La publication dans Science (MIT, 2026) a montré qu’on peut identifier les représentations de plus de 500 concepts abstraits dans les LLM et les amplifier ou minimiser de manière ciblée.

Axe 3 : Explicabilité post-hoc

Les techniques appliquées après l’entraînement pour expliquer les décisions individuelles. C’est l’axe le plus riche en méthodes et le plus utilisé en pratique. Les principales techniques sont couvertes en détail dans notre page Explainability :

Méthodes d’attribution de features : SHAP (basé sur les valeurs de Shapley, théorie des jeux), LIME (approximation locale par modèle interprétable), Integrated Gradients (intégration des gradients). Méthodes basées sur les activations : Grad-CAM (pour la vision par ordinateur), analyse des activations de couches. Méthodes par perturbation : RISE, permutation feature importance. Méthodes basées sur l’attention : visualisation des poids d’attention dans les Transformers. Explications contrefactuelles : quel changement minimal aurait produit un résultat différent ?

Axe 4 : Évaluation des explications

Comment mesurer la qualité d’une explication ? C’est l’axe le moins développé et le plus critique. Les métriques d’évaluation incluent :

Fidélité (fidelity) : l’explication reflète-t-elle fidèlement le processus de décision du modèle ?

Compréhensibilité : l’explication est-elle compréhensible par l’audience cible ?

Stabilité : des entrées similaires produisent-elles des explications similaires ?

Robustesse adversariale : l’explication est-elle résistante à la manipulation ?

La standardisation des protocoles d’évaluation est identifiée comme une priorité critique pour 2026 dans le champ XAI. Les pratiques actuelles sont fragmentées, avec des mesures isolées qui ne capturent pas l’ensemble des dimensions de qualité.

Modèles white-box vs black-box

L’XAI distingue deux types fondamentaux de modèles :

White-box (boîte blanche) : le modèle est intrinsèquement interprétable. Sa structure est suffisamment simple pour qu’un humain comprenne directement ses décisions. Exemples : régression linéaire, arbre de décision, règles logiques, modèles GAM (Generalized Additive Models). InterpretML de Microsoft propose des EBM (Explainable Boosting Machines) qui sont des modèles white-box avec des performances proches des modèles black-box.

Black-box (boîte noire) : le modèle est trop complexe pour être compris directement. C’est le cas de la quasi-totalité des modèles performants : réseaux de neurones profonds, LLM, forêts aléatoires denses, ensembles de modèles. Les techniques XAI post-hoc sont nécessaires pour les rendre explicables.

L’objectif du programme DARPA était de créer des modèles « glass-box » (boîte de verre) : des modèles performants dont le fonctionnement est traçable. En 2026, cet objectif reste partiellement atteint : les techniques post-hoc améliorent considérablement la transparence, mais un LLM à milliards de paramètres reste fondamentalement opaque dans son fonctionnement interne.

Applications concrètes par secteur

Secteur	Usage de l’XAI	Enjeu
Santé	Expliquer les diagnostics assistés par IA, les recommandations de traitement	Un médecin doit comprendre pourquoi le modèle recommande un traitement pour l’accepter
Finance	Justifier les décisions de crédit, détection de fraude, scoring	Obligations réglementaires d’explication des refus de crédit
Justice	Évaluation du risque de récidive, aide à la décision judiciaire	Risque de biais discriminatoire dans les décisions de justice
Recrutement	Tri de CV, évaluation de candidats assistée par IA	Démontrer que les décisions ne sont pas discriminatoires (EU AI Act)
Automobile	Décisions de conduite autonome, détection d’obstacles	Traçabilité en cas d’accident, responsabilité juridique
Défense	Systèmes de décision autonome, détection de menaces	Supervision humaine obligatoire (DARPA XAI, EU AI Act)

XAI pour les LLM : l’état de l’art

L’application du XAI aux LLM est un domaine de recherche actif. Les LLM posent des défis spécifiques : milliards de paramètres, sorties en langage naturel (pas des décisions binaires), et interactions conversationnelles complexes.

Les approches actuelles se répartissent en trois catégories (revue LLMs for XAI) :

LLM comme objet d’explication : appliquer les techniques XAI classiques (SHAP, attention, saliency) aux LLM pour comprendre leurs décisions. Le défi principal est le coût computationnel : calculer des valeurs SHAP pour chaque token d’une séquence de milliers de tokens est prohibitif.

LLM comme outil d’explication : utiliser les LLM pour transformer les sorties des outils XAI (valeurs numériques, cartes de chaleur) en récits compréhensibles en langage naturel. C’est une application prometteuse qui exploite les capacités de génération de langage pour combler le fossé entre mesures techniques et compréhension humaine.

LLM avec explicabilité intrinsèque : le Chain-of-Thought (CoT), les mécanismes d’attention, et la model distillation produisent des formes d’explicabilité intégrées au modèle. Le CoT est la forme la plus accessible, mais la recherche (Turpin et al., 2023) montre que les explications CoT ne sont pas toujours fidèles au processus réel de décision.

XAI 2.0 : les défis ouverts

Le manifeste « XAI 2.0 » (Saeed et al., 2024) identifie les défis majeurs pour la prochaine phase du champ :

Standardisation des évaluations. Les pratiques actuelles sont fragmentées. La communauté doit converger vers des benchmarks partagés qui capturent la robustesse adversariale, la conformité réglementaire et la compréhensibilité humaine.

XAI respectueux de la vie privée. Les explications traditionnelles peuvent involontairement révéler des informations sensibles. La recherche explore le XAI préservant la vie privée, où les explications sont générées sans exposer les données brutes ou les enregistrements individuels. L’intégration de mécanismes de confidentialité différentielle dans les modèles d’explication est un axe actif.

Explications adaptatives. Les frameworks XAI hybrides capables d’ajuster dynamiquement les stratégies d’explication en fonction de la tâche, du contexte et de l’audience. Un médecin, un patient et un auditeur réglementaire n’ont pas besoin des mêmes explications.

XAI pour les systèmes multi-agents. Avec la montée des agents IA autonomes, expliquer les décisions d’un système composé de plusieurs agents interagissant est un défi nouveau et complexe.

Interdisciplinarité. Le XAI ne peut pas progresser en restant un domaine purement technique. Il nécessite la collaboration entre informaticiens, juristes, psychologues cognitifs, éthiciens, et experts des domaines d’application.

Cadre réglementaire

Le XAI est directement impacté par plusieurs cadres réglementaires :

EU AI Act : impose que les utilisateurs de systèmes IA à haut risque puissent interpréter les résultats de manière appropriée. Mais l’Act ne fournit aucune guidance technique sur les méthodes XAI à utiliser, laissant un vide que les praticiens doivent combler. Les experts (étude ACL 2025) recommandent des règles spécifiques par domaine et des explications centrées sur l’utilisateur. Deadline de conformité : août 2026.

RGPD (article 22) : le « droit à l’explication » pour les décisions automatisées ayant des effets juridiques ou significatifs. En pratique, le RGPD spécifie aussi des exceptions à ce droit dans certains cas.

DARPA XAI : le programme de référence qui a lancé le champ, avec pour livrable une bibliothèque d’outils XAI utilisables par les développeurs futurs.

NIST AI RMF : le cadre américain de gestion des risques IA, qui intègre la transparence et l’explicabilité comme composantes de la confiance dans l’IA.

Limites actuelles du XAI

Malgré les progrès considérables, le XAI fait face à plusieurs limites structurelles :

Manque de standardisation. Il n’existe pas de benchmark universel pour évaluer la qualité d’une explication. Les métriques sont fragmentées (fidélité, compréhensibilité, stabilité) et chaque équipe utilise ses propres critères. La communauté de recherche identifie la convergence vers des protocoles d’évaluation partagés comme priorité critique pour 2026.

Complexité pour les utilisateurs finaux. Les outils XAI sont conçus par et pour des data scientists. Un graphique SHAP est illisible pour un patient, un candidat à l’embauche ou un juge. Le gap entre les explications techniques et la compréhension des non-experts est le principal frein à l’adoption. L’émergence du LLM-as-explicateur (transformer les valeurs SHAP en récit) est une piste prometteuse.

Risques de sur-interprétation. Les utilisateurs (y compris les data scientists expérimentés) tendent à accorder trop de confiance aux explications XAI sans comprendre leurs hypothèses et limites. Une explication SHAP qui assume l’indépendance des features sur des données corrélées peut induire en erreur. La formation des utilisateurs est aussi importante que le choix de l’outil.

XAI adversarial. Les explications elles-mêmes peuvent être manipulées. Des chercheurs ont montré que des classifieurs biaisés peuvent produire des explications SHAP et LIME qui masquent le biais, donnant une fausse impression d’équité. Le XAI adversarial est un champ de recherche émergent qui étudie la robustesse des explications face aux manipulations.

Verdict

Le XAI est passé d’un programme de recherche DARPA à une exigence réglementaire en moins de dix ans. C’est un champ en pleine maturation, avec des outils robustes pour les modèles ML classiques (SHAP, LIME, InterpretML) et des approches émergentes pour les LLM (CoT, mechanistic interpretability, LLM-as-explicateur).

Les principaux défis restent la standardisation des évaluations, la fidélité des explications (surtout pour les LLM), le compromis performance/explicabilité, et l’adaptation des explications aux audiences non techniques. L’EU AI Act (deadline août 2026) rend ces défis urgents pour toute organisation déployant des systèmes IA à haut risque en Europe.

Pour les praticiens : ne traitez pas le XAI comme une case à cocher réglementaire. C’est un investissement dans la confiance des utilisateurs, la détection de biais, et la qualité de vos modèles. Les organisations qui intègrent le XAI dans leur pipeline ML dès le départ (pas en fin de projet) en tirent le plus de valeur.

Questions fréquentes sur le XAI

Quelle est la différence entre XAI et explainability ?

XAI (eXplainable Artificial Intelligence) est le champ disciplinaire : l’ensemble de la recherche, des méthodes, des outils et des cadres dédiés à rendre l’IA compréhensible. L’explainability (explicabilité) est la propriété d’un système qui fournit des explications compréhensibles de ses décisions. XAI est la discipline, l’explainability est le résultat que cette discipline cherche à atteindre.

Le XAI est-il obligatoire réglementairement ?

Oui, dans certains contextes. L’EU AI Act impose des exigences de transparence et d’interprétabilité pour les systèmes IA à haut risque (recrutement, crédit, santé, justice). Le RGPD garantit un « droit à l’explication » pour les décisions automatisées. Cependant, aucun de ces textes ne prescrit de méthode XAI spécifique, laissant le choix technique aux praticiens. La deadline EU AI Act est août 2026.

Quels sont les principaux outils XAI ?

Pour les modèles ML classiques : SHAP (feature importance locale et globale), LIME (explications locales rapides), InterpretML (Microsoft, modèles interprétables + post-hoc), Captum (PyTorch, deep learning), AI Fairness 360 (IBM, fairness + explainability). Pour les LLM : Chain-of-Thought prompting, visualisation de l’attention, tracing applicatif (W&B Weave, MLflow Tracing).

Le XAI réduit-il la performance des modèles ?

Ça dépend de l’approche. Les techniques post-hoc (SHAP, LIME) n’affectent pas la performance du modèle car elles s’appliquent après l’entraînement. Les modèles intrinsèquement interprétables (régressions, arbres) sont souvent moins performants que les modèles complexes. La model distillation crée des modèles plus simples qui imitent un modèle complexe, avec une légère perte de performance. En pratique, le compromis est gérable : les EBM (Explainable Boosting Machines) d’InterpretML atteignent des performances proches des modèles black-box tout en étant interprétables.

Comment intégrer le XAI dans un projet ML existant ?

Commencez par le post-hoc : ajoutez SHAP à votre pipeline d’évaluation pour comprendre quelles features influencent les prédictions. Pour les LLM, activez le Chain-of-Thought et intégrez un outil de tracing (MLflow, W&B Weave). Documentez les décisions de conception (model cards). Pour les applications à haut risque, évaluez si un modèle intrinsèquement interprétable (EBM, arbre de décision) peut atteindre des performances suffisantes. Intégrez les tests d’explicabilité dans votre CI/CD pour vérifier que les explications restent stables après chaque mise à jour.