Explainability (Explicabilité IA)

L’explainability (ou explicabilité) IA désigne l’ensemble des techniques et méthodes qui permettent de comprendre, d’interpréter et de communiquer comment un modèle de machine learning ou un LLM arrive à ses décisions. L’objectif est de transformer les modèles « boîtes noires » en systèmes dont le raisonnement est traçable, vérifiable et compréhensible par des humains.

Catégorie: IA responsable / XAI (eXplainable AI)
Distinction clé: Interprétabilité (modèle transparent par design) vs explicabilité (explication ajoutée après coup)
Techniques post-hoc: SHAP, LIME, Integrated Gradients, Counterfactual Explanations
Techniques intrinsèques: Chain-of-Thought (CoT), mécanismes d’attention, model distillation
Outils: SHAP (Python), LIME (Python), InterpretML (Microsoft), ELI5, Captum (PyTorch)
Cadre réglementaire: EU AI Act (transparence obligatoire pour les systèmes à haut risque), RGPD (art. 22)
Termes liés: XAI, Biais, Fairness, LIME

Interprétabilité vs explicabilité

Ces deux termes sont souvent confondus mais désignent des concepts distincts :

Interprétabilité (interpretability) : un modèle est interprétable quand sa structure est suffisamment simple pour qu’un humain comprenne directement son fonctionnement. Une régression linéaire est interprétable : chaque coefficient indique la contribution de chaque variable. Un arbre de décision peu profond est interprétable : on peut suivre les branches. Un réseau de neurones à milliards de paramètres n’est pas interprétable.

Explicabilité (explainability) : un modèle est explicable quand des outils externes peuvent produire des explications compréhensibles de ses décisions, même si le modèle lui-même est une boîte noire. SHAP et LIME rendent un réseau de neurones explicable sans le rendre interprétable.

En pratique, les modèles les plus performants (LLM, deep learning) sont rarement interprétables par design. L’explicabilité ajoute des explications après coup (post-hoc) pour compenser cette opacité. Le compromis interprétabilité/performance est réel : les modèles plus simples et interprétables sont souvent moins performants que les modèles complexes et opaques.

Pourquoi l’explicabilité est indispensable

Confiance. Les utilisateurs et décideurs adoptent l’IA plus rapidement quand ils comprennent son raisonnement. Un médecin qui sait pourquoi le modèle recommande un traitement est plus enclin à suivre la recommandation qu’un médecin face à un verdict opaque.

Détection de biais. L’explicabilité permet de révéler quand un modèle base ses décisions sur des caractéristiques inappropriées (genre, race, code postal comme proxy racial). Sans explicabilité, les biais restent invisibles jusqu’à ce qu’ils causent des dommages.

Conformité réglementaire. L’EU AI Act impose que les utilisateurs de systèmes IA à haut risque puissent interpréter les résultats du système de manière appropriée. Le RGPD (article 22) garantit le droit de ne pas être soumis à une décision entièrement automatisée sans possibilité d’obtenir une explication. La deadline de conformité pour l’EU AI Act est août 2026.

Débogage et amélioration. Comprendre pourquoi un modèle fait une erreur est la première étape pour la corriger. L’explicabilité transforme le débogage ML d’un processus aléatoire en une investigation structurée.

Responsabilité (accountability). Quand une décision IA a des conséquences (refus de crédit, diagnostic médical, décision judiciaire), il faut pouvoir expliquer pourquoi cette décision a été prise. L’explicabilité fournit la trace d’audit nécessaire.

Les trois familles de techniques

Techniques post-hoc

Ces techniques s’appliquent après l’entraînement, sans modifier le modèle. Elles sont « model-agnostic » : elles fonctionnent avec n’importe quel type de modèle en le traitant comme une boîte noire.

SHAP (SHapley Additive exPlanations) : basé sur les valeurs de Shapley (théorie des jeux coopératifs), SHAP attribue à chaque feature une valeur qui représente sa contribution à la prédiction. Les valeurs SHAP sont additives : la somme des contributions de toutes les features égale la prédiction du modèle. SHAP fournit des explications locales (pour une prédiction individuelle) et globales (pour le modèle entier). C’est la méthode la plus populaire et la plus rigoureuse mathématiquement.

LIME (Local Interpretable Model-agnostic Explanations) : LIME crée un modèle simple (régression linéaire, arbre de décision) qui approxime localement le comportement du modèle complexe autour d’une prédiction spécifique. Il perturbe légèrement les données d’entrée, observe comment les prédictions changent, et construit un modèle interprétable local. LIME est plus rapide que SHAP mais fournit uniquement des explications locales.

Integrated Gradients : une méthode basée sur les gradients qui mesure la contribution de chaque feature en intégrant les gradients le long d’un chemin de l’input de référence (baseline) à l’input réel. Particulièrement adaptée aux réseaux de neurones profonds et aux modèles de traitement d’images.

Counterfactual Explanations : au lieu d’expliquer pourquoi une décision a été prise, les explications contrefactuelles décrivent quel changement minimal dans l’input aurait produit un résultat différent. Exemple : « Le prêt a été refusé. Si vos revenus étaient supérieurs de 500 euros, il aurait été approuvé. » C’est souvent le format d’explication le plus actionnable pour l’utilisateur final.

Permutation Feature Importance : mesure l’importance d’une feature en observant combien la performance du modèle se dégrade quand on mélange aléatoirement les valeurs de cette feature. Simple à implémenter, mais donne uniquement une vue globale (pas de détail par prédiction).

Technique	Portée	Force	Limite
SHAP	Locale + globale	Rigueur mathématique (Shapley values), additif	Coûteux en calcul, sensible à la corrélation entre features
LIME	Locale uniquement	Rapide, model-agnostic, intuitif	Instable (perturbations différentes, résultats différents), sensible à la colinéarité
Integrated Gradients	Locale	Adapté aux réseaux profonds et images	Nécessite l’accès aux gradients (pas model-agnostic)
Counterfactual	Locale	Actionnable, compréhensible par les non-experts	Peut être irréaliste (« si votre âge était de 10 ans de moins… »)
Permutation Importance	Globale	Simple, model-agnostic	Pas de détail par prédiction, sensible à la corrélation

Techniques intrinsèques (LLM)

Pour les LLM, des mécanismes intégrés au modèle ou à l’inférence produisent des explications sans outil externe :

Chain-of-Thought (CoT) : en demandant au modèle de décomposer son raisonnement en étapes explicites, on obtient une trace de raisonnement lisible. Le CoT est la forme la plus accessible d’explicabilité pour les LLM : l’explication est dans la réponse elle-même. Cependant, la recherche a montré que les LLM ne disent pas toujours ce qu’ils « pensent » : les explications CoT peuvent être infidèles au processus réel de génération (Turpin et al., 2023).

Visualisation de l’attention : les mécanismes d’attention des Transformers indiquent quelles parties de l’entrée le modèle « regarde » lors de la génération. Les cartes d’attention peuvent révéler quels mots ont le plus influencé la réponse. Toutefois, le débat « attention is not explanation » (Wiegreffe & Pinter, 2019) rappelle que les poids d’attention ne reflètent pas toujours fidèlement l’importance causale des inputs.

Model distillation : convertir un modèle complexe en un modèle plus simple (et interprétable) qui imite son comportement, sans perte significative de performance. C’est un compromis : le modèle distillé est plus transparent, mais ne capture pas nécessairement toutes les nuances du modèle original.

Saliency maps (cartes de saillance) : des techniques basées sur les gradients qui montrent visuellement quels tokens ou régions de l’entrée ont le plus contribué à la sortie du modèle. Les variantes incluent Grad-SAM (Gradient Self-Attention Maps) et d’autres méthodes d’attribution.

Techniques centrées sur l’humain

L’explicabilité n’est utile que si l’explication est compréhensible par son audience cible :

Explications en langage naturel : les LLM eux-mêmes peuvent transformer des explications techniques (valeurs SHAP, poids d’attention) en récits compréhensibles par des non-experts. C’est une application émergente : utiliser un LLM pour expliquer les décisions d’un autre modèle ML.

Model cards : des fiches documentaires standardisées qui décrivent les capacités, limites, biais connus et conditions d’utilisation d’un modèle. Les model cards ne sont pas une technique d’explicabilité au sens strict, mais elles contribuent à la transparence globale du système.

Feedback humain : intégrer le retour des utilisateurs sur la qualité et la pertinence des explications pour les améliorer itérativement. Les explications qui sont techniquement correctes mais incompréhensibles pour l’audience cible ne servent à rien.

Principaux outils

Outil	Éditeur	Techniques	Idéal pour
SHAP	Open source (Lundberg)	Shapley values (TreeSHAP, DeepSHAP, KernelSHAP)	Feature importance locale + globale, tout type de modèle
LIME	Open source (Ribeiro)	Approximation locale par modèle interprétable	Explications locales rapides, texte/tabular/image
InterpretML	Microsoft	Modèles interprétables (EBM) + post-hoc (SHAP, LIME)	Industries réglementées, combinaison interprétabilité + explicabilité
Captum	Meta (PyTorch)	Integrated Gradients, DeepLIFT, saliency	Modèles PyTorch, deep learning, NLP
ELI5	Open source	Permutation importance, LIME, weights	Débogage rapide, scikit-learn
Alibi Explain	SeldonIO	Counterfactual, anchors, SHAP	Explications contrefactuelles, déploiement production

L’explicabilité des LLM : un défi spécifique

Expliquer un LLM est fondamentalement plus difficile qu’expliquer un modèle ML classique. Un modèle de classification a quelques dizaines de features dont on peut mesurer la contribution. Un LLM a des milliards de paramètres, traite des séquences de milliers de tokens, et produit des sorties en langage naturel qui sont elles-mêmes complexes et ouvertes.

Les approches émergentes pour l’explicabilité des LLM incluent :

LLM comme explicateur : utiliser un LLM pour transformer les outputs d’outils XAI (valeurs SHAP, cartes d’attention) en récits compréhensibles. C’est une approche prometteuse qui exploite les capacités de génération de langage des LLM pour combler le fossé entre les mesures techniques et la compréhension humaine.

Mechanistic interpretability : une approche de recherche (poussée notamment par Anthropic) qui vise à comprendre les circuits internes des réseaux de neurones, en identifiant quels neurones ou groupes de neurones encodent quels concepts. La méthode MIT publiée dans Science (2026) utilise des algorithmes de feature learning pour identifier les représentations de plus de 500 concepts abstraits (biais, personnalités, humeurs) dans les LLM, et les amplifier ou minimiser.

Tracing et observabilité : pour les applications LLM en production, le tracing (W&B Weave, MLflow Tracing) fournit une forme d’explicabilité opérationnelle : on peut tracer chaque requête de bout en bout, voir les entrées et sorties de chaque étape, et comprendre comment le système a produit sa réponse.

Les explications CoT peuvent être infidèles La recherche de Turpin et al. (NeurIPS 2023) a démontré que les explications Chain-of-Thought produites par les LLM ne reflètent pas toujours le véritable processus de décision du modèle. Le modèle peut fournir un raisonnement qui semble logique mais qui ne correspond pas à la manière dont il a réellement généré sa réponse. C’est l’équivalent d’une rationalisation post-hoc humaine. Les explications CoT sont utiles pour la communication, mais ne doivent pas être considérées comme une preuve du processus interne du modèle.

EU AI Act et explicabilité

L’EU AI Act impose des exigences de transparence pour les systèmes IA à haut risque, mais sans fournir de guidance technique spécifique sur la manière d’implémenter l’explicabilité. Cette absence de standard technique crée des défis pour les praticiens.

Une étude ACL 2025 (Dhaini, Ondrus & Kasneci) a interviewé des experts sur l’alignement entre XAI et EU AI Act. Les conclusions sont révélatrices : les experts considèrent l’explicabilité comme dépendante du contexte et de l’audience, se heurtent à des défis liés au flou réglementaire et aux compromis techniques, et recommandent des règles spécifiques par domaine, des méthodes hybrides et des explications centrées sur l’utilisateur.

En pratique, les obligations de l’EU AI Act en matière d’explicabilité se traduisent par : la documentation de la logique du système IA, la fourniture d’explications aux utilisateurs affectés par les décisions, la mise en place de mécanismes de supervision humaine, et la traçabilité des décisions (audit logs des entrées, sorties et comportements).

Limites de l’explicabilité

Compromis performance/explicabilité. Les modèles les plus performants sont les moins interprétables. Imposer l’explicabilité peut soit dégrader les performances (modèles plus simples), soit ajouter un coût computationnel significatif (SHAP sur un LLM est très coûteux).

Fidélité des explications. Les explications post-hoc ne sont pas toujours fidèles au véritable processus de décision. LIME peut produire des résultats instables (perturbations différentes, résultats différents). SHAP assume l’indépendance des features, ce qui est rarement le cas. Le CoT peut rationaliser plutôt qu’expliquer.

Sur-confiance dans les explications. Les data scientists qui travaillent quotidiennement avec SHAP et LIME tendent à faire confiance aux explications sans comprendre pleinement les hypothèses et limites des outils. Cela peut conduire à des interprétations erronées, surtout en présence de colinéarité entre features.

Audience. Une explication utile pour un data scientist (valeurs SHAP, cartes d’attention) est incompréhensible pour un patient, un candidat à l’embauche, ou un juge. L’explicabilité doit être adaptée à son audience, ce qui nécessite un travail de communication souvent sous-estimé.

Verdict

L’explicabilité n’est plus optionnelle. L’EU AI Act (deadline août 2026), le RGPD, et les attentes des utilisateurs imposent que les systèmes IA puissent justifier leurs décisions. Les outils existent (SHAP, LIME, InterpretML, Captum), les techniques pour les LLM progressent (CoT, mechanistic interpretability, LLM-as-explicateur), et les cadres réglementaires se précisent.

La recommandation pour les praticiens : commencez par SHAP pour les modèles ML classiques (c’est le standard de facto), utilisez le Chain-of-Thought pour les LLM (en gardant à l’esprit ses limites de fidélité), et investissez dans l’observabilité/tracing pour les applications en production. Adaptez toujours les explications à votre audience, et ne confondez jamais une explication avec une preuve du processus interne réel du modèle.

Questions fréquentes sur l’explicabilité IA

Quelle est la différence entre SHAP et LIME ?

SHAP est basé sur les valeurs de Shapley (théorie des jeux) et fournit des explications locales et globales avec des garanties mathématiques d’additivité et de consistance. LIME approxime localement le modèle avec un modèle simple et fournit uniquement des explications locales. SHAP est plus rigoureux mais plus coûteux en calcul. LIME est plus rapide mais moins stable (les résultats peuvent varier selon les perturbations). Pour un usage standard, SHAP est recommandé pour sa rigueur. LIME est préférable quand la vitesse est critique.

Le Chain-of-Thought est-il une forme fiable d’explicabilité ?

Partiellement. Le CoT produit des traces de raisonnement lisibles qui aident à la communication et au débogage. Cependant, la recherche a montré que les explications CoT ne sont pas toujours fidèles au processus réel de décision du modèle (Turpin et al., 2023). Le LLM peut produire un raisonnement apparemment logique qui ne correspond pas à la manière dont il a effectivement généré sa réponse. Utilisez le CoT comme outil de communication, pas comme preuve du raisonnement interne.

L’EU AI Act impose-t-il l’explicabilité ?

Oui, pour les systèmes à haut risque. L’EU AI Act exige que les utilisateurs puissent interpréter les résultats du système IA de manière appropriée, et impose une supervision humaine. Cependant, l’Act ne fournit aucune guidance technique sur les méthodes d’explicabilité à utiliser, laissant cette décision aux praticiens. Les experts recommandent des approches hybrides combinant des méthodes techniques (SHAP, LIME) et des explications centrées sur l’utilisateur, adaptées au contexte et à l’audience.

Peut-on expliquer les décisions d’un LLM avec SHAP ?

Techniquement oui, mais c’est très coûteux. SHAP nécessite de calculer des valeurs pour chaque feature (token) de l’input, ce qui est prohibitif pour des séquences de milliers de tokens. Des approximations existent (KernelSHAP, sampling), mais la plupart des praticiens se tournent vers des approches plus adaptées aux LLM : Chain-of-Thought, visualisation de l’attention, saliency maps, ou tracing au niveau applicatif (W&B Weave, MLflow Tracing).

Quels secteurs ont le plus besoin d’explicabilité IA ?

Les secteurs réglementés où les décisions IA ont un impact direct sur les individus : santé (diagnostic, traitement), finance (crédit, assurance, trading), justice (scoring de risque, aide à la décision judiciaire), recrutement (tri de CV, évaluation de candidats), et éducation (notation, admission). Dans ces secteurs, l’explicabilité n’est pas un luxe : c’est une obligation réglementaire (EU AI Act, RGPD) et une condition de confiance des utilisateurs.