Treatment Effect (Effet de Traitement)
Le treatment effect (effet de traitement) est la différence causale entre le résultat observé quand un individu reçoit un traitement et le résultat qu’il aurait obtenu sans ce traitement, mesuré dans le cadre des résultats potentiels (potential outcomes) de Rubin ou des modèles causaux structurels de Pearl.
- Catégorie
- Inférence causale / Data science
- Définition formelle
- τᵢ = Y(1) – Y(0) pour l’individu i
- Types principaux
- ATE (moyen sur la population), ATT (sur les traités), CATE (conditionnel aux covariables), ITE (individuel)
- Problème fondamental
- On n’observe jamais les deux résultats potentiels pour le même individu
- Méthodes
- RCT, matching, IPW, DID, IV, DML, Causal Forests, meta-learners
- Outils
- DoWhy, EconML, CausalML, grf, Stata 19 (cate)
Qu’est-ce qu’un treatment effect ?
L’expression « treatment effect » vient de la médecine (effet d’un médicament sur la santé du patient) mais s’applique à tout contexte où l’on évalue l’impact causal d’une intervention sur un résultat. En marketing, c’est l’effet d’une campagne sur les ventes. En politique publique, c’est l’impact d’un programme d’emploi sur la durée du chômage. En produit, c’est l’effet d’une nouvelle fonctionnalité sur l’engagement utilisateur.
Dans le framework des résultats potentiels (Neyman-Rubin), chaque individu a deux résultats potentiels : Y(1), le résultat s’il reçoit le traitement, et Y(0), le résultat s’il ne le reçoit pas. Le treatment effect individuel (ITE) est la différence : τᵢ = Y(1) – Y(0). Le problème fondamental de l’inférence causale est qu’on ne peut jamais observer les deux : pour chaque individu, on observe soit Y(1) soit Y(0), jamais les deux simultanément. C’est ce qui rend l’estimation des effets de traitement fondamentalement différente d’un problème de prédiction classique.
Types d’effets de traitement
ATE (Average Treatment Effect)
L’ATE est l’effet moyen du traitement sur l’ensemble de la population : ATE = E[Y(1) – Y(0)]. C’est la métrique de base en évaluation de programmes et en A/B testing. Un ATE positif indique que le traitement améliore le résultat en moyenne, un ATE négatif qu’il le dégrade, et un ATE nul qu’il n’a pas d’effet moyen.
L’ATE répond à la question : « Devrions-nous déployer ce traitement pour toute la population ? ». C’est l’outil de l’évaluation de programme (program evaluation). Un A/B test bien conçu estime directement l’ATE grâce à la randomisation.
ATT et ATC
L’ATT (Average Treatment effect on the Treated) mesure l’effet moyen uniquement sur les individus qui ont effectivement reçu le traitement : ATT = E[Y(1) – Y(0) | T = 1]. C’est la bonne métrique quand vous voulez évaluer l’impact d’un programme sur ses participants (pas sur la population entière).
L’ATC (Average Treatment effect on the Control) mesure l’effet hypothétique si on traitait les individus non traités : ATC = E[Y(1) – Y(0) | T = 0]. Utile pour évaluer le potentiel d’extension d’un programme à de nouveaux bénéficiaires.
L’ATE, l’ATT et l’ATC peuvent différer significativement. Si les médecins prescrivent un médicament aux patients les plus malades, l’ATT (effet sur les traités) sera différent de l’ATE (effet moyen sur toute la population) car les patients traités ne sont pas représentatifs de la population générale.
CATE (Conditional Average Treatment Effect)
Le CATE est l’effet moyen du traitement conditionné à un profil de caractéristiques X : CATE(x) = E[Y(1) – Y(0) | X = x]. C’est le concept central de l’hétérogénéité des effets de traitement (HTE) et de la personnalisation des interventions.
Le CATE répond à une question plus fine que l’ATE : « Quel est l’effet du traitement pour un individu avec ces caractéristiques spécifiques ? ». Un médicament contre l’hypertension peut réduire la pression systolique de 15 mmHg chez les patients de plus de 60 ans mais de seulement 3 mmHg chez les moins de 30 ans. Un programme de formation peut augmenter substantiellement les revenus des travailleurs sans diplôme mais avoir peu d’effet sur les diplômés.
Le CATE se situe entre l’ITE (individuel, inobservable) et l’ATE (population entière, trop agrégé). Il permet d’identifier les sous-groupes qui bénéficient le plus (ou le moins) d’un traitement, guidant l’allocation optimale des ressources et la personnalisation des décisions.
ITE (Individual Treatment Effect)
L’ITE est l’effet du traitement pour un individu spécifique : τᵢ = Y(1) – Y(0). C’est le graal de la médecine personnalisée et du marketing individualisé, mais il est fondamentalement inobservable (on ne peut pas observer le même individu avec et sans traitement simultanément).
En pratique, on approxime l’ITE par le CATE estimé pour les caractéristiques de l’individu. Plus les caractéristiques X sont riches et le modèle précis, plus cette approximation est fine.
LATE (Local Average Treatment Effect)
Le LATE est l’effet moyen sur les « compliers » dans un design à variables instrumentales. Les compliers sont les individus dont le traitement est effectivement modifié par l’instrument. Le LATE est l’estimand naturel des méthodes IV et peut différer substantiellement de l’ATE si les compliers ne sont pas représentatifs de la population.
Hétérogénéité des effets de traitement (HTE)
Un treatment effect est dit hétérogène quand il varie selon les individus ou sous-groupes. L’identification de cette hétérogénéité est l’un des axes de recherche les plus actifs en Causal AI et en machine learning causal.
L’enjeu est concret : si un traitement aide certains sous-groupes mais en dessert d’autres, un ATE global positif peut masquer des effets négatifs locaux. Identifier l’hétérogénéité permet de personnaliser les interventions (traiter uniquement ceux qui en bénéficient), d’optimiser l’allocation des ressources et de comprendre les mécanismes causaux sous-jacents.
L’approche traditionnelle est l’analyse par sous-groupes : diviser la population en groupes (hommes/femmes, par tranche d’âge, par région) et estimer l’ATE dans chaque groupe. Mais cette approche est limitée : elle nécessite de spécifier les sous-groupes a priori et chaque sous-groupe a moins de données, réduisant la puissance statistique.
Les méthodes de machine learning causal permettent de découvrir l’hétérogénéité de manière data-driven, sans pré-spécifier les interactions.
Méthodes d’estimation
Essais randomisés (RCT)
La randomisation est le gold standard. En assignant aléatoirement les individus au traitement ou au contrôle, les groupes sont statistiquement identiques en espérance. La différence de moyennes entre les groupes estime directement l’ATE sans biais. C’est le principe de l’A/B testing en digital.
Régression avec interactions
L’approche la plus simple pour estimer le CATE : incluez des termes d’interaction entre le traitement T et les covariables X dans un modèle de régression. Le modèle Y = β₀ + β₁T + β₂X + β₃(T × X) + ε donne un CATE de β₁ + β₃X, c’est-à-dire un effet de traitement qui varie linéairement selon X. Simple et interprétable, mais limité aux interactions linéaires et aux cas où vous savez quelles interactions tester.
Matching et IPW
Le propensity score matching crée des paires d’individus traités/non traités avec des scores de propension similaires. L’IPW (Inverse Probability Weighting) pondère les observations pour simuler une assignation aléatoire. L’AIPW (Augmented IPW) combine la pondération et la modélisation du résultat pour une estimation doublement robuste.
Différence en différences (DiD)
Compare l’évolution d’un groupe traité vs un groupe contrôle avant et après l’intervention. Élimine les différences constantes entre groupes. Largement utilisée en économétrie pour évaluer l’effet de politiques publiques.
Variables instrumentales (IV)
Quand des confondeurs non mesurés existent, un instrument (variable qui affecte le traitement mais pas directement le résultat) permet d’estimer l’effet causal. Le 2SLS (Two-Stage Least Squares) étendu avec des interactions permet d’estimer des effets hétérogènes. Le LATE est l’estimand naturel.
Méthodes de Causal ML
Les méthodes de ML causal estiment les effets de traitement hétérogènes (CATE) de manière flexible et non paramétrique :
Causal Forests (Athey & Imbens). Extension des Random Forest pour l’estimation du CATE. Chaque arbre partitionne les données pour maximiser la variation de l’effet de traitement entre les feuilles. Produit des estimations du CATE avec intervalles de confiance, permettant l’inférence statistique. Implémenté dans grf (R) et EconML (Python). Une étude dans World Politics a montré que les Causal Forests révèlent de l’hétérogénéité invisible aux méthodes paramétriques traditionnelles.
Double Machine Learning (DML). Utilise le ML pour modéliser les relations de nuisance (confondeurs) tout en préservant l’inférence sur l’effet causal. Le DML est particulièrement adapté aux données observationnelles de haute dimension. Les benchmarks récents (DoorDash, KDD 2025) confirment le DML comme la méthode avec la meilleure généralisation hors-échantillon pour l’estimation d’effets hétérogènes en contexte business.
Meta-learners (S/T/X-Learner). Frameworks qui utilisent n’importe quel modèle ML comme brique de base pour estimer le CATE. Le S-Learner utilise un seul modèle avec le traitement comme feature. Le T-Learner entraîne deux modèles séparés. Le X-Learner est optimisé pour les échantillons déséquilibrés. Voir la page uplift modeling pour les détails de chaque méthode.
Architectures deep learning causales. TARNet (Treatment-Agnostic Representation Network), CFRNet (Counterfactual Regression Network) et DragonNet sont des réseaux de neurones conçus pour l’estimation d’effets causaux en haute dimension. Ils apprennent des représentations qui équilibrent les distributions des groupes traitement/contrôle.
Évaluation des estimations
Évaluer un modèle de treatment effect est intrinsèquement difficile car le « vrai » effet individuel n’est jamais observé. Plusieurs approches existent :
Test d’hétérogénéité. Teste formellement si les effets de traitement sont homogènes (H0) ou hétérogènes (H1). Stata 19 inclut désormais la commande estat heterogeneity et le test GATE (Group Average Treatment Effects) pour cette évaluation.
TOC curve (Targeting Operating Characteristic). Trie les individus par CATE décroissant et trace l’effet moyen de traitement cumulé. La forme de la courbe révèle le degré d’hétérogénéité et la taille du sous-groupe qui bénéficie le plus.
AUTOC (Area Under the TOC). Résume la TOC curve en un score unique. Plus il est élevé, plus le modèle identifie efficacement les individus avec les effets de traitement les plus forts.
Réfutation. DoWhy propose des tests de réfutation qui vérifient la robustesse de l’estimation causale : ajout d’un confondeur aléatoire (l’estimé ne devrait pas changer), remplacement du traitement par un placebo (l’effet devrait disparaître), permutation du résultat. Si l’estimé est sensible à ces tests, il est fragile.
Qini curve et AUUC. Métriques spécifiques à l’uplift modeling qui évaluent la capacité du modèle à classer les individus par effet de traitement.
Hypothèses d’identification
L’estimation des treatment effects repose sur des hypothèses qui, si elles sont violées, biaisent les résultats :
Ignorabilité conditionnelle (unconfoundedness). Conditionnellement aux covariables observées, le traitement est indépendant des résultats potentiels. En clair : il n’existe pas de facteur non mesuré qui influence à la fois le traitement et le résultat. Si cette hypothèse échoue, le CATE est biaisé, et le biais peut varier selon les sous-groupes.
Overlap (positivity). Chaque profil de covariables doit avoir une probabilité non nulle de recevoir le traitement et de ne pas le recevoir. Si certains sous-groupes reçoivent quasi systématiquement le traitement (ou jamais), l’estimation dans ces régions est une extrapolation, pas une estimation.
SUTVA (Stable Unit Treatment Value Assumption). Le résultat d’un individu ne dépend pas du traitement assigné aux autres individus (pas d’effets de réseau) et le traitement est identique pour tous les traités (pas de versions cachées).
Applications concrètes
Médecine personnalisée. Le CATE identifie les patients qui bénéficieront le plus d’un traitement spécifique. Un antihypertenseur peut être très efficace chez les patients âgés mais peu chez les jeunes. Les Causal Forests sont utilisées en psychiatrie pour identifier quels soldats exposés au stress de combat développeront le plus probablement un PTSD et quels facteurs modèrent cette vulnérabilité.
Marketing et uplift modeling. Le CATE estimé pour chaque client détermine qui cibler avec une campagne. Les clients avec un CATE positif élevé (persuadables) sont ciblés ; ceux avec un CATE nul ou négatif sont épargnés. C’est le fondement de l’optimisation du ROI marketing.
Politique publique. L’estimation du CATE permet d’identifier quelles sous-populations bénéficient le plus d’un programme (formation professionnelle, aide au logement, politique d’emploi) et de personnaliser les interventions en conséquence.
Pricing. L’effet d’un changement de prix sur les ventes varie selon les segments client. Le CATE permet d’estimer l’élasticité-prix par segment pour optimiser la stratégie tarifaire.
Produit digital. Le CATE d’une nouvelle fonctionnalité varie selon les segments utilisateurs. L’A/B testing mesure l’ATE, mais le CATE révèle quels utilisateurs adoptent la fonctionnalité et quels segments voient leur engagement chuter.
Outils et librairies
| Outil | Langage | Spécialité treatment effect |
|---|---|---|
| DoWhy (pyWhy/Microsoft) | Python | Framework complet : modélisation causale, identification, estimation (ATE/CATE), réfutation |
| EconML (Microsoft) | Python | DML, Causal Forests, meta-learners (S/T/X/DR), IV, estimation CATE haute dimension |
| CausalML (Uber) | Python | Meta-learners, uplift trees, CATE pour le marketing, traitements multiples |
| grf (Stanford) | R | Causal Forests avec intervalles de confiance, estimation non paramétrique du CATE |
| Stata 19 | Stata | Commande cate native, tests d’hétérogénéité, GATE, graphiques IATE |
| causal-learn (pyWhy) | Python | Causal discovery (apprendre le DAG à partir des données) |
Pour les praticiens Python, le workflow recommandé est DoWhy pour la modélisation causale et la validation (identify + refute) et EconML pour l’estimation du CATE avec des méthodes ML (DML, Causal Forests). Les deux s’intègrent nativement. En R, grf est la référence pour les Causal Forests avec de l’inférence statistique rigoureuse.
Pipeline pratique d’estimation
1. Spécifier le DAG causal. Identifiez les variables de traitement (T), de résultat (Y), les confondeurs (W), les modificateurs d’effet (X) et les instruments éventuels (Z). DoWhy permet de formaliser ce graphe.
2. Identifier l’estimand. En fonction du DAG, DoWhy détermine si l’effet est identifiable et par quelle méthode (backdoor, frontdoor, IV). Si l’identification échoue, aucune méthode statistique ne sauvera l’estimation.
3. Estimer l’effet. Commencez par l’ATE comme baseline (différence de moyennes si RCT, IPW ou matching si observationnel). Puis estimez le CATE avec EconML (DML, Causal Forest) ou CausalML (meta-learners). Visualisez la distribution des CATE estimés pour détecter l’hétérogénéité.
4. Tester l’hétérogénéité. Testez formellement si les effets sont homogènes ou hétérogènes. Tracez la TOC curve. Si l’hétérogénéité est confirmée, identifiez les sources (quelles variables modèrent l’effet) via la feature importance des Causal Forests.
5. Réfuter et valider. Appliquez les tests de réfutation de DoWhy (placebo, confondeur aléatoire). Si possible, validez les prédictions de CATE par un A/B test ciblé : traitez les individus que le modèle identifie comme ayant un CATE élevé et vérifiez que l’effet mesuré correspond aux prédictions.
Questions fréquentes sur le treatment effect
Quelle est la différence entre ATE et CATE ?
L’ATE (Average Treatment Effect) est l’effet moyen du traitement sur l’ensemble de la population. C’est un chiffre unique qui répond à « le traitement fonctionne-t-il en moyenne ? ». Le CATE (Conditional Average Treatment Effect) est l’effet moyen conditionné à un profil de caractéristiques : il varie selon les individus et répond à « pour qui le traitement fonctionne-t-il le mieux ? ». L’ATE guide la décision de déployer un programme. Le CATE guide la décision de personnaliser le traitement. L’ATE est un cas particulier du CATE (quand on ne conditionne sur aucune caractéristique).
Pourquoi ne peut-on pas observer directement l’effet de traitement individuel ?
C’est le problème fondamental de l’inférence causale. Pour connaître l’ITE d’un individu, il faudrait observer ce qui lui arrive avec le traitement ET ce qui lui arrive sans le traitement. Mais un individu ne peut être que dans un état à la fois : traité ou non traité. Le résultat contrefactuel (ce qui se serait passé dans l’autre scénario) est fondamentalement inobservable. C’est pour cela qu’on utilise des groupes de comparaison (contrôle randomisé) ou des méthodes statistiques (matching, IV, DML) pour estimer l’effet moyen en comparant des individus similaires dans des conditions différentes.
Quand faut-il estimer le CATE plutôt que l’ATE ?
Estimez le CATE quand vous soupçonnez que l’effet du traitement n’est pas uniforme, c’est-à-dire quand certains sous-groupes bénéficient plus (ou moins) du traitement. C’est le cas dans la plupart des situations réelles : l’effet d’un médicament varie selon l’âge et les comorbidités, l’effet d’une campagne marketing varie selon le segment client, l’effet d’un programme de formation varie selon le niveau de qualification. Si votre objectif est de personnaliser l’intervention (cibler ceux qui en bénéficient le plus), le CATE est l’estimand qui vous intéresse. Si votre objectif est simplement de savoir si un programme vaut la peine d’être déployé à l’échelle, l’ATE suffit.
Comment les Causal Forests estiment-elles les effets de traitement hétérogènes ?
Les Causal Forests adaptent l’algorithme Random Forest à l’estimation causale. Chaque arbre partitionne les données non pas pour minimiser l’erreur de prédiction (comme en ML classique) mais pour maximiser la variation de l’effet de traitement entre les feuilles. Les individus dans une même feuille ont un effet de traitement similaire. L’agrégation sur l’ensemble de la forêt produit une estimation lissée du CATE pour chaque individu, avec des intervalles de confiance valides pour l’inférence. L’avantage principal est la flexibilité : aucune hypothèse sur la forme fonctionnelle de l’hétérogénéité n’est requise, et la méthode gère naturellement les interactions complexes entre covariables.
Quels sont les risques si les hypothèses d’identification sont violées ?
Si l’hypothèse d’ignorabilité conditionnelle est violée (confondeur non mesuré), le CATE estimé sera biaisé, et ce biais peut varier selon les sous-groupes, créant une fausse hétérogénéité. Si l’hypothèse d’overlap est violée (certains profils ne reçoivent jamais le traitement), l’estimation dans ces régions est une extrapolation non fiable. Si SUTVA est violée (effets de réseau), l’effet individuel dépend du traitement des autres, ce qui rend l’ITE mal défini. Les tests de réfutation de DoWhy et les analyses de sensibilité aident à détecter ces violations, mais aucune méthode ne peut entièrement compenser un confondeur important non mesuré. C’est pourquoi l’A/B testing randomisé reste le gold standard quand il est faisable.