Interpretability (Interprétabilité)
L’interprétabilité en machine learning désigne le degré auquel un humain peut comprendre comment un modèle arrive à ses prédictions, que ce soit par la transparence intrinsèque du modèle lui-même ou par des méthodes d’analyse post-hoc appliquées après l’entraînement.
Un modèle de régression linéaire est intrinsèquement interprétable : chaque coefficient a un sens direct (« pour chaque année d’expérience supplémentaire, le salaire augmente de 2 500 € »). Un réseau de neurones profond à 175 milliards de paramètres ne l’est pas : personne ne peut regarder ses poids et comprendre pourquoi il a classé un email en spam. L’interprétabilité couvre l’ensemble du spectre, des modèles nativement compréhensibles aux techniques qui rendent les boîtes noires un peu moins opaques.
L’interprétabilité est devenue un enjeu industriel et réglementaire majeur. Le MIT Technology Review a classé l’interprétabilité mécanistique parmi ses 10 technologies révolutionnaires de 2026. L’AI Act européen, pleinement applicable en août 2026, impose des exigences d’explicabilité pour les systèmes d’IA à haut risque. L’interprétabilité n’est plus un luxe académique : c’est une nécessité opérationnelle.
- Domaine
- Explicabilité / XAI
- Deux approches
- Interprétabilité intrinsèque (modèle transparent) et interprétabilité post-hoc (méthodes d’explication)
- Modèles intrinsèques
- Régression linéaire/logistique, arbres de décision, règles, GAM, EBM
- Méthodes post-hoc
- SHAP, LIME, Integrated Gradients, attention visualization, contrefactuels
- Frontière de recherche
- Interprétabilité mécanistique (Anthropic, OpenAI, DeepMind)
- Cadre d’évaluation
- Framework PDR : Predictive accuracy, Descriptive accuracy, Relevancy (Murdoch et al., PNAS 2019)
- Réglementation
- AI Act (art. 13, 86), RGPD (art. 22)
Interprétabilité vs explicabilité : clarification
Les termes « interprétabilité » et « explicabilité » sont souvent utilisés de manière interchangeable, mais une distinction utile existe dans la littérature :
Interprétabilité (interpretability) se réfère à la capacité de comprendre les mécanismes internes d’un modèle. Un arbre de décision est interprétable parce qu’on peut suivre chaque branche et comprendre la logique de classification. C’est une propriété du modèle lui-même.
Explicabilité (explainability) se réfère à la capacité de fournir des explications compréhensibles par un humain pour les décisions d’un modèle, sans nécessairement comprendre son fonctionnement interne. SHAP rend un réseau de neurones explicable (on sait quelles features comptent) sans le rendre interprétable (on ne comprend pas les milliards de paramètres).
En pratique, cette distinction est plus académique qu’opérationnelle. Ce qui compte pour un praticien, c’est de pouvoir répondre aux questions « pourquoi cette prédiction ? » et « comment améliorer le modèle ? ». Les deux concepts y contribuent.
Interprétabilité intrinsèque : les modèles transparents
Certains modèles sont nativement compréhensibles par construction. Leur structure permet à un humain de suivre le raisonnement du modèle sans outil supplémentaire.
Modèles linéaires
La régression linéaire et la régression logistique sont les archétypes de l’interprétabilité. Chaque feature a un coefficient qui quantifie directement son effet sur la prédiction. Le signe indique la direction (positif ou négatif), la magnitude indique l’importance. L’interprétation est immédiate pour quiconque comprend la notion de pente.
Limite : les modèles linéaires supposent des relations linéaires entre features et sortie. Quand cette hypothèse est violée (ce qui est fréquent), la performance prédictive se dégrade. C’est le compromis classique interprétabilité-performance.
Arbres de décision
Un arbre de décision est une séquence de questions binaires (« le revenu est-il supérieur à 40 000 € ? ») menant à une prédiction. Un humain peut suivre le chemin de l’arbre pour comprendre exactement pourquoi une observation a été classée d’une certaine manière. C’est le modèle interprétable le plus populaire en entreprise.
Limite : un arbre de décision seul est souvent trop simple pour rivaliser avec les modèles d’ensemble (random forest, XGBoost) en performance. Et quand on augmente la profondeur pour gagner en performance, l’arbre devient trop complexe pour être interprétable (un arbre de 50 niveaux n’est pas lisible par un humain).
GAM et EBM : le meilleur des deux mondes
Les Generalized Additive Models (GAM) et leur évolution, les Explainable Boosting Machines (EBM, implémentés dans la bibliothèque InterpretML de Microsoft), offrent un compromis intéressant. Ils modélisent la prédiction comme une somme de fonctions non-linéaires, chacune portant sur une seule feature (ou une paire de features pour les interactions). Chaque fonction peut être visualisée sous forme de courbe, montrant l’effet de chaque feature de manière intuitive.
Les EBM atteignent des performances proches des modèles boîte noire (gradient boosting) tout en restant interprétables. Ils sont de plus en plus adoptés dans les domaines réglementés (finance, santé) où l’interprétabilité est une exigence.
Systèmes à base de règles
Les modèles à base de règles (if-then-else) produisent des explications nativement lisibles : « Si le client a plus de 3 incidents de paiement ET un revenu inférieur à 25 000 € ALORS refuser le crédit ». Des algorithmes comme RIPPER et Bayesian Rule Lists apprennent automatiquement des ensembles de règles à partir des données, avec un contrôle sur la complexité (nombre et longueur des règles).
Interprétabilité post-hoc : expliquer les boîtes noires
Quand le modèle est une boîte noire (réseau de neurones profond, ensemble de centaines d’arbres, LLM), des méthodes post-hoc sont nécessaires pour en extraire des explications. Ces méthodes n’ouvrent pas la boîte noire : elles observent ses entrées et sorties pour inférer des patterns explicatifs.
Feature attribution
Les méthodes de feature attribution attribuent un score d’importance à chaque variable d’entrée pour une prédiction donnée. SHAP est le standard de facto (fondement théorique solide, valeurs de Shapley, compatible local et global). LIME est l’alternative plus intuitive mais moins rigoureuse. Les Integrated Gradients sont la référence pour les réseaux de neurones différentiables. Consultez notre page dédiée à la feature attribution pour un guide complet.
Explications contrefactuelles
Les contrefactuels montrent quel changement minimal aurait modifié la décision du modèle. C’est l’approche la plus naturelle pour l’utilisateur final (« Votre prêt serait accepté si votre revenu augmentait de 5 000 € »). DiCE (Microsoft) est l’outil de référence.
Modèles surrogates
Un modèle surrogate (ou substitut) est un modèle interprétable (arbre de décision, régression linéaire) entraîné pour approximer les prédictions du modèle boîte noire. Le surrogate global approxime le modèle sur l’ensemble du dataset. LIME est un surrogate local : il approxime le modèle dans le voisinage d’une observation spécifique.
L’avantage des surrogates est leur simplicité d’interprétation. Le danger : le surrogate peut ne pas être fidèle au modèle original, surtout dans les régions complexes de l’espace des features. L’interprétation du surrogate n’est pas nécessairement l’interprétation du modèle réel.
Partial Dependence Plots et ICE
Les PDP (Partial Dependence Plots) montrent l’effet marginal moyen d’une ou deux features sur la prédiction, en moyennant sur les autres features. Les ICE (Individual Conditional Expectation) montrent cet effet pour chaque observation individuellement, révélant l’hétérogénéité cachée par la moyenne.
Ces visualisations sont utiles pour comprendre les relations feature-prédiction apprises par le modèle, mais elles supposent l’indépendance des features (ce qui est rarement vérifié en pratique).
Interprétabilité mécanistique : la frontière de recherche
L’interprétabilité mécanistique (mechanistic interpretability) va bien au-delà des méthodes post-hoc. Son objectif : comprendre les algorithmes réellement appris par les réseaux de neurones, neurone par neurone, circuit par circuit. C’est l’équivalent de la rétro-ingénierie pour les logiciels biologiques du cerveau, mais appliquée aux cerveaux artificiels.
Features et superposition
Les travaux d’Anthropic (2022-2025) ont révélé que les neurones individuels dans les réseaux de neurones sont souvent « polysémantiques » : un même neurone s’active pour des concepts très différents. C’est le phénomène de superposition : le réseau encode plus de concepts que de neurones, en les superposant. Les sparse autoencoders (SAE) permettent de décomposer les activations en « features monosémantiques » (un concept par feature), rendant l’analyse plus tractable.
Circuits et attribution graphs
En 2025, Anthropic a publié la méthode de circuit tracing, qui trace le chemin computationnel complet d’un prompt à une réponse à travers le réseau. Un « circuit » est un sous-graphe du réseau qui implémente un comportement spécifique (par exemple, le circuit qui permet au modèle de répondre correctement à « La capitale de la France est… »). Les attribution graphs visualisent ces circuits, montrant quelles features intermédiaires sont activées et comment elles se combinent pour produire la sortie.
Ces travaux ont permis de comprendre des comportements comme le recall factuel (comment le modèle retrouve un fait stocké dans ses poids), la résistance au jailbreak, et même les mécanismes de « pensée » multi-étapes. OpenAI et Google DeepMind mènent des recherches similaires.
Probing et logit lens
Le probing consiste à entraîner de petits classifieurs sur les représentations internes du modèle pour déterminer quelle information est encodée à chaque couche. Le logit lens (et son successeur, le tuned lens) projette les représentations intermédiaires dans l’espace du vocabulaire pour voir comment la prédiction évolue couche par couche. Ces techniques sont plus simples que le circuit tracing mais donnent des aperçus utiles sur l’organisation interne des transformers.
Le framework PDR pour évaluer l’interprétabilité
Murdoch et al. (PNAS, 2019) ont proposé le framework PDR (Predictive, Descriptive, Relevant) pour structurer l’évaluation des méthodes d’interprétabilité :
Predictive accuracy (précision prédictive). L’interprétation est-elle fidèle au modèle ? Si le modèle prend sa décision en se basant sur le revenu, l’interprétation doit refléter cela. Une interprétation qui pointe vers les mauvaises features est pire qu’aucune interprétation.
Descriptive accuracy (précision descriptive). L’interprétation capture-t-elle correctement les relations apprises par le modèle ? Un PDP qui montre une relation linéaire alors que le modèle a appris une relation en U échoue sur ce critère.
Relevancy (pertinence). L’interprétation est-elle utile pour l’audience visée ? Un analyste risque a besoin de valeurs SHAP quantitatives. Un client a besoin d’un contrefactuel actionnable. Un chercheur a besoin d’un circuit trace. La même méthode ne convient pas à tous.
Le framework PDR souligne un point souvent négligé : l’interprétabilité n’est pas une propriété absolue du modèle, mais une propriété relative à un public et un objectif. Un arbre de décision de 3 niveaux est interprétable pour un non-technicien. Un beeswarm plot SHAP est interprétable pour un data scientist. Ni l’un ni l’autre n’est universellement interprétable.
Choisir la bonne approche
| Contexte | Approche recommandée | Outils |
|---|---|---|
| Domaine réglementé, décision individuelle critique (crédit, santé) | Modèle intrinsèquement interprétable si la performance le permet (EBM, GAM), sinon boîte noire + SHAP + contrefactuels | InterpretML (EBM), shap, DiCE |
| Recherche, compréhension du modèle | Interprétabilité mécanistique + probing | TransformerLens, Captum, sparse autoencoders |
| Production, monitoring | Feature attribution globale + monitoring des drifts d’attribution | shap (bar plots, summary plots) |
| Communication aux utilisateurs finaux | Contrefactuels + langage naturel | DiCE, templates de texte |
| Débogage de modèle | PDP + ICE + feature attribution locale + attention visualization | shap, BertViz, matplotlib |
| Audit de biais | Feature attribution par sous-groupes + fairness metrics + inférence causale | shap, Aequitas, DoWhy |
Cas d’usage par secteur
Finance et assurance
La finance est le secteur où l’interprétabilité est la plus mature. Les réglementations bancaires (Bâle III, SR 11-7 de la Fed aux États-Unis, guidelines EBA en Europe) exigent la validation et la compréhension des modèles utilisés pour les décisions de crédit. Les approches typiques combinent des modèles intrinsèquement interprétables (régressions logistiques, scorecards) pour les décisions les plus sensibles, et des modèles boîte noire accompagnés de SHAP pour les cas où la performance est critique.
En assurance, la tarification doit être justifiable. Les EBM (Explainable Boosting Machines) gagnent du terrain car ils offrent des performances proches du gradient boosting tout en permettant aux actuaires de visualiser l’effet de chaque variable sur la prime. Un actuaire peut valider que le modèle tarifie correctement le risque en inspectant les courbes de réponse de chaque feature.
Santé
En diagnostic médical assisté, l’interprétabilité est une question de sécurité patient. Un radiologue qui utilise un modèle de détection de tumeurs doit comprendre pourquoi le modèle a signalé (ou pas) une anomalie. Les cartes de saliency (Grad-CAM) montrent quelles zones de l’image ont attiré l’attention du modèle. Les valeurs SHAP sur les données cliniques montrent quels facteurs (âge, marqueurs sanguins, antécédents) ont pesé dans la prédiction de risque.
L’enjeu va au-delà de la conformité : l’interprétabilité améliore l’adoption clinique. Les études montrent que les médecins sont significativement plus enclins à suivre les recommandations d’un modèle qu’ils comprennent. Un modèle performant mais opaque est souvent ignoré en pratique.
Recrutement et RH
Les systèmes de tri automatique de CV sont particulièrement sensibles au biais. L’interprétabilité permet d’auditer ces systèmes : quelles features contribuent aux décisions ? Le prénom ou le lieu de résidence influencent-ils la sélection ? Les contrefactuels révèlent si un candidat identique mais de genre différent aurait reçu une décision différente. L’AI Act classe les systèmes de recrutement IA comme à haut risque, rendant l’interprétabilité obligatoire.
Industrie et IoT
En maintenance prédictive, l’interprétabilité guide l’action terrain. Un opérateur qui reçoit une alerte de panne imminente a besoin de savoir quel capteur ou quel composant est à l’origine du signal. Les SHAP values par capteur transforment une alerte opaque en diagnostic actionnable : « température du roulement principale raison du score d’anomalie élevé ».
Interprétabilité en production
Choix du niveau d’interprétabilité. En production, l’interprétabilité n’est pas binaire. Vous devez définir le niveau requis selon le contexte : explication systématique pour chaque décision (crédit, recrutement), explication à la demande quand l’utilisateur le demande (recommandations), ou monitoring agrégé sans explication individuelle (détection de fraude interne).
Performance vs interprétabilité. Mesurez objectivement le compromis. Entraînez un modèle interprétable (EBM, arbre) et un modèle boîte noire sur les mêmes données. Si l’écart d’AUC est inférieur à 0.01-0.02, le modèle interprétable est probablement le meilleur choix global en tenant compte du coût de l’infrastructure d’explicabilité nécessaire pour la boîte noire.
Documentation et audit trail. Pour chaque modèle en production, documentez dans une model card : le type de modèle et sa justification, la méthode d’interprétabilité/explicabilité utilisée, les limitations connues, le public cible des explications, et les résultats des tests de fidélité des explications.
Monitoring des explications. Les distributions d’attributions (SHAP values agrégées) sont un signal de monitoring puissant. Un shift soudain dans l’importance relative des features peut indiquer un data drift, un concept drift, ou un problème de qualité des données, souvent avant que les métriques de performance classiques ne se dégradent.
Interprétabilité et AI Act
L’AI Act (pleinement applicable le 2 août 2026) impose que les systèmes d’IA à haut risque soient conçus de manière à permettre aux déployeurs de comprendre la logique de leurs décisions (article 13). L’article 86 accorde un droit à l’explication pour les personnes affectées par des décisions automatisées.
En pratique, cela signifie que tout système de classification, scoring ou recommandation dans un domaine à haut risque (finance, santé, recrutement, justice, éducation) doit être accompagné d’une capacité d’explication. Les options : utiliser un modèle intrinsèquement interprétable, ou accompagner un modèle boîte noire de méthodes post-hoc documentées (SHAP, contrefactuels) avec une model card décrivant la méthodologie.
La transparence et l’accountability exigées par l’AI Act vont au-delà de l’interprétabilité technique : elles incluent la documentation, le monitoring, la supervision humaine et les mécanismes de recours. L’interprétabilité est une condition nécessaire mais pas suffisante.
Limites de l’interprétabilité
L’interprétabilité intrinsèque sacrifie parfois la performance. Malgré les travaux montrant que le compromis est souvent surestimé, il existe des cas (vision, NLP, données très haute dimension) où les modèles boîte noire surpassent significativement les modèles interprétables.
Les méthodes post-hoc sont des approximations. SHAP, LIME et les contrefactuels expliquent le comportement du modèle, pas son fonctionnement interne. Un modèle peut produire des explications rassurantes tout en se basant sur des raccourcis statistiques (shortcut learning). L’explication n’est pas la compréhension.
L’interprétabilité mécanistique ne scale pas encore. Les techniques de circuit tracing fonctionnent sur des modèles de taille modérée, mais peinent à couvrir des LLM de centaines de milliards de paramètres de manière exhaustive. Les travaux d’Anthropic sur Claude 3.5 Haiku ont démontré la faisabilité sur un modèle de taille intermédiaire, mais l’application aux modèles frontier reste un défi ouvert.
Le risque d’interprétabilité trompeuse. Une explication convaincante mais fausse est pire qu’aucune explication. Les utilisateurs ont tendance à faire confiance aux explications sans les vérifier (automation bias). Un modèle qui produit des SHAP values pointant vers des features pertinentes peut masquer un raisonnement sous-jacent biaisé.
L’interprétabilité est subjective. Ce qui est « interprétable » dépend de l’audience. Un actuaire comprend un modèle GLM. Un patient ne comprend pas un beeswarm plot. L’interprétabilité n’est pas une propriété intrinsèque du modèle ou de la méthode : c’est une propriété de l’interaction entre le modèle, la méthode d’explication, et l’humain qui la reçoit.
Questions fréquentes sur l’interprétabilité
Quelle est la différence entre interprétabilité et explicabilité ?
L’interprétabilité désigne la capacité à comprendre les mécanismes internes d’un modèle (un arbre de décision est interprétable par construction). L’explicabilité désigne la capacité à fournir des explications compréhensibles pour les décisions d’un modèle, même opaque (SHAP rend un réseau de neurones explicable sans le rendre interprétable). En pratique, les deux termes sont souvent utilisés de manière interchangeable. Ce qui compte, c’est de pouvoir répondre à la question « pourquoi cette prédiction ? » de manière fiable et adaptée à l’audience.
Faut-il toujours utiliser un modèle interprétable ?
Non, mais vous devriez toujours commencer par évaluer si un modèle interprétable (EBM, GAM, arbre de décision) atteint une performance suffisante pour votre cas d’usage. Si la différence de performance avec un modèle boîte noire est marginale (ce qui arrive plus souvent qu’on ne le croit), privilégiez le modèle interprétable, surtout dans les domaines réglementés. Si la performance de la boîte noire est significativement supérieure et critique pour l’application, utilisez-la mais accompagnez-la de méthodes d’explicabilité post-hoc robustes (SHAP, contrefactuels).
Qu’est-ce que l’interprétabilité mécanistique ?
L’interprétabilité mécanistique vise à comprendre les algorithmes réellement appris par les réseaux de neurones, en identifiant les « circuits » (sous-graphes computationnels) qui implémentent des comportements spécifiques. Anthropic, OpenAI et DeepMind investissent massivement dans ce domaine. Les techniques incluent les sparse autoencoders (pour décomposer les activations en features interprétables), le circuit tracing (pour tracer les chemins computationnels), et l’activation patching (pour tester la causalité des composants). C’est la frontière de recherche la plus active en interprétabilité, classée parmi les technologies révolutionnaires de 2026 par le MIT Technology Review.
L’interprétabilité est-elle obligatoire avec l’AI Act ?
L’AI Act n’impose pas un type spécifique d’interprétabilité, mais exige que les systèmes à haut risque permettent aux déployeurs de comprendre les décisions (article 13) et accordent un droit à l’explication aux personnes affectées (article 86). En pratique, cela signifie que vous devez avoir un mécanisme d’explication documenté et opérationnel. Un modèle intrinsèquement interprétable satisfait cette exigence naturellement. Un modèle boîte noire doit être accompagné de méthodes d’explicabilité post-hoc (SHAP, contrefactuels) et d’une documentation (model card) décrivant la méthodologie et ses limitations.
Quels outils Python utiliser pour l’interprétabilité ?
Pour les modèles intrinsèquement interprétables : InterpretML (EBM), scikit-learn (arbres de décision, régression). Pour la feature attribution post-hoc : shap (standard de facto), lime, Captum (PyTorch). Pour les contrefactuels : DiCE. Pour l’attention visualization : BertViz, Ecco. Pour l’interprétabilité mécanistique : TransformerLens (Neel Nanda), Captum. Pour l’inférence causale : DoWhy + EconML. Le choix dépend de votre type de modèle, de votre audience et de votre objectif.