Propensity Score (Score de Propension)

Le propensity score (score de propension) est la probabilité conditionnelle qu’un individu reçoive un traitement, étant donné ses caractéristiques observées. Introduit par Rosenbaum et Rubin en 1983, il permet de contrôler le biais de confondement dans les études observationnelles en créant des groupes comparables sans randomisation.

Catégorie: Inférence causale / Statistique
Définition formelle: e(X) = P(T = 1 | X), la probabilité de recevoir le traitement conditionnellement aux covariables X
Objectif: Rendre les groupes traitement/contrôle comparables sur les covariables observées
Méthodes d’utilisation: Matching, IPW (Inverse Probability Weighting), stratification, régression, AIPW
Hypothèse clé: Ignorabilité conditionnelle (pas de confondeur non mesuré)
Outils: DoWhy, EconML, MatchIt (R), WeightIt (R), CausalML, Stata

Le problème que résout le propensity score

Dans un essai randomisé (A/B test), la randomisation garantit que les groupes traitement et contrôle sont comparables sur toutes les caractéristiques, observées et non observées. Dans une étude observationnelle, cette garantie n’existe pas : les individus qui reçoivent le traitement diffèrent systématiquement de ceux qui ne le reçoivent pas.

Exemple concret : vous voulez évaluer l’effet d’un programme de formation sur les revenus. Les personnes qui s’inscrivent volontairement sont probablement plus motivées, plus éduquées et dans une situation professionnelle différente de celles qui ne s’inscrivent pas. Comparer directement les revenus des participants et des non-participants confondrait l’effet du programme avec l’effet de ces différences préexistantes. Le résultat serait biaisé.

Le propensity score résout ce problème en résumant toutes les covariables confondantes en un seul score. Si deux individus (un traité, un non traité) ont le même propensity score, ils ont en espérance les mêmes caractéristiques observées, même si leurs profils individuels diffèrent. En conditionnant sur le propensity score, on « simule » la randomisation pour les variables observées, rendant la comparaison traitement/contrôle valide.

Le propensity score ne résout pas tout Le propensity score ne contrôle que les confondeurs observés et inclus dans le modèle. Si un facteur important influence à la fois le traitement et le résultat mais n’est pas mesuré, le biais persiste. C’est la limite fondamentale de toute méthode observationnelle : aucune technique statistique ne peut compenser un confondeur invisible. L’analyse de sensibilité est indispensable.

Comment estimer le propensity score

Le propensity score est estimé par un modèle de classification qui prédit la probabilité de recevoir le traitement à partir des covariables. La régression logistique est la méthode historique et reste la plus courante. Les algorithmes de machine learning (Random Forest, XGBoost, réseaux de neurones) sont aussi utilisés pour capturer les relations non linéaires entre covariables et traitement.

Sélection des variables

C’est l’étape la plus critique et la plus contre-intuitive. L’objectif du propensity score n’est PAS de prédire parfaitement qui reçoit le traitement. C’est d’équilibrer les covariables entre les groupes. La distinction est fondamentale :

Incluez les variables qui affectent le résultat (confondeurs et pronostiques), même si elles n’affectent pas le traitement. Elles réduisent le biais et la variance de l’estimation.

N’incluez PAS les variables qui affectent le traitement mais pas le résultat (instruments). Elles augmentent la variance sans réduire le biais.

N’incluez jamais les médiateurs (variables qui sont des conséquences du traitement). Elles biaiseraient l’estimation en bloquant une partie de l’effet causal.

Un DAG (graphe causal dirigé) est l’outil idéal pour guider cette sélection : il rend explicites les relations causales entre variables et identifie clairement quelles variables inclure ou exclure.

Évaluation du modèle de propensity score

Contrairement au ML classique, un bon modèle de propensity score ne se mesure PAS par sa capacité prédictive (c-statistic, AUC). Un modèle avec un AUC élevé n’est pas nécessairement un bon modèle de propensity score si l’ajout de variables prédictives du traitement (mais non confondantes) ne réduit pas le biais.

Le critère d’évaluation est l’équilibre des covariables (covariate balance) après application du propensity score. On mesure cet équilibre via les différences standardisées entre les groupes traitement et contrôle. Le seuil communément accepté est une différence standardisée inférieure à 0,1 pour chaque covariable. Si certaines covariables restent déséquilibrées, le modèle de propensity score doit être révisé (ajout d’interactions, de termes polynomiaux, changement de spécification).

Méthodes d’utilisation du propensity score

Propensity Score Matching (PSM)

Le matching crée des paires d’individus traités et non traités avec des propensity scores similaires. Chaque individu traité est apparié à un ou plusieurs individus contrôle ayant un score proche. L’effet de traitement est ensuite estimé comme la différence moyenne de résultats entre les paires appariées.

Types de matching :

Nearest neighbor (1:1). Chaque traité est apparié au contrôle le plus proche. Simple mais peut exclure beaucoup de contrôles.

k:1 matching. Chaque traité est apparié à k contrôles. Réduit la variance mais augmente le biais potentiel (les matches sont moins proches).

Caliper matching. Impose une distance maximale (caliper) entre les scores des individus appariés. Évite les mauvais appariements mais peut exclure des individus traités sans match acceptable.

Full matching. Forme des strates contenant au moins un traité et un contrôle, en optimisant la proximité globale des scores. Utilise toutes les données et se situe entre le matching classique et la stratification.

Matching avec remplacement. Un contrôle peut être apparié à plusieurs traités. Réduit le biais (chaque traité obtient le meilleur match possible) mais nécessite un ajustement pour la non-indépendance des observations.

Le PSM estime typiquement l’ATT (Average Treatment effect on the Treated) car chaque traité est apparié à un contrôle, pas l’inverse.

Inverse Probability Weighting (IPW)

L’IPW pondère chaque observation par l’inverse de sa probabilité de recevoir le traitement qu’elle a effectivement reçu. Les individus traités avec un propensity score faible (improbables d’être traités mais qui le sont) reçoivent un poids élevé, et vice versa. Cette pondération crée une pseudo-population dans laquelle le traitement est indépendant des covariables, simulant la randomisation.

Poids pour les traités : w = 1/e(X). Poids pour les contrôles : w = 1/(1 – e(X)).

L’avantage de l’IPW sur le matching : il utilise toutes les données (pas d’exclusion) et préserve la taille d’échantillon. L’inconvénient : les individus avec des propensity scores extrêmes (proches de 0 ou 1) reçoivent des poids très élevés, rendant l’estimation instable. Les techniques de troncature (trimming) des poids atténuent ce problème.

Overlap Weighting

Développée plus récemment, l’overlap weighting attribue des poids bornés et stables qui privilégient les individus en zone d’équipoise (propensity score proche de 0,5, c’est-à-dire ceux qui auraient pu plausiblement recevoir l’un ou l’autre traitement). L’estimand est l’ATO (Average Treatment effect in the Overlap population).

L’overlap weighting évite les poids extrêmes de l’IPW et atteint un équilibre exact des covariables moyennes dans la population cible. C’est la méthode la plus robuste quand la zone de chevauchement entre les distributions de propensity scores est limitée. Elle est particulièrement recommandée en recherche clinique et comparative.

Stratification (subclassification)

Les individus sont regroupés en strates (typiquement 5 quintiles) selon leur propensity score. L’effet de traitement est estimé dans chaque strate, puis combiné en une estimation globale pondérée. Cochran (1968) a montré que 5 strates éliminent environ 90 % du biais dû aux confondeurs. Simple à implémenter mais moins précise que l’IPW ou le full matching pour les distributions complexes.

AIPW (Augmented Inverse Probability Weighting)

L’AIPW combine la pondération IPW et la modélisation du résultat (outcome regression) pour obtenir un estimateur doublement robuste : l’estimation est valide si le modèle de propensity score OU le modèle de résultat est correctement spécifié (pas nécessairement les deux). Cette double protection est particulièrement précieuse en pratique, où la spécification parfaite d’un modèle est irréaliste.

L’AIPW est la méthode recommandée par défaut dans la littérature récente. Elle est implémentée dans DoWhy, EconML, et les Causal Forests de grf (qui utilisent l’AIPW pour estimer l’ATE à partir des CATE individuels).

Diagnostic : vérifier l’équilibre

Après avoir appliqué le propensity score (matching, IPW ou autre), la vérification de l’équilibre des covariables est obligatoire. C’est l’étape que trop de praticiens négligent.

Différence standardisée. Calculez-la pour chaque covariable avant et après ajustement. Objectif : toutes les différences standardisées sous 0,1 après ajustement.

Love plot. Graphique qui affiche les différences standardisées avant et après ajustement pour toutes les covariables. Un bon ajustement montre toutes les covariables proches de zéro après traitement.

Distribution des propensity scores. Vérifiez le chevauchement (overlap) des distributions de scores entre les groupes traitement et contrôle. Si les distributions ne se chevauchent pas, l’estimation dans les zones sans overlap est une extrapolation, pas une estimation causale.

L’équilibre prime sur la prédiction Ne rapportez pas le c-statistic ou l’AUC de votre modèle de propensity score comme indicateur de qualité. Rapportez les différences standardisées et le Love plot. Un modèle avec un AUC modeste mais un excellent équilibre des covariables est supérieur à un modèle avec un AUC parfait mais un mauvais équilibre.

Applications concrètes

Santé et recherche clinique

Le propensity score est omniprésent en épidémiologie et en recherche clinique pour évaluer les effets de traitements à partir de données observationnelles (dossiers médicaux, registres, bases d’assurance maladie) quand les essais randomisés sont impossibles, trop coûteux ou éthiquement discutables. La transplantation rénale, la comparaison d’anticoagulants et l’évaluation de politiques de santé publique sont des domaines d’application majeurs.

Marketing et CRM

Le propensity score est utilisé en uplift modeling pour estimer l’effet incrémental d’une campagne marketing. L’IPW ajuste les données de campagne pour simuler ce qui se serait passé sans l’intervention. Le X-Learner utilise le propensity score pour pondérer les estimations entre groupes de tailles inégales.

Évaluation de politiques publiques

L’estimation de l’effet de programmes éducatifs, de politiques d’emploi ou d’aides sociales sur les résultats des bénéficiaires utilise massivement le propensity score. L’exemple classique : estimer l’effet du programme Head Start sur le développement des enfants en comparant les participants aux non-participants via PSM.

Produit et data science

Quand un A/B test n’est pas faisable (la fonctionnalité a déjà été déployée, les utilisateurs s’auto-sélectionnent), le propensity score permet d’estimer l’effet causal à partir de données observationnelles. C’est le cas classique du « feature adoption analysis » : les utilisateurs qui adoptent une fonctionnalité diffèrent de ceux qui ne l’adoptent pas, et le PSM corrige ce biais de sélection.

Outils et librairies

Outil	Langage	Spécialité propensity score
DoWhy (pyWhy)	Python	Framework complet : modélisation causale, IPW, matching, réfutation
EconML	Python	DML avec propensity score, AIPW, estimation CATE
CausalML (Uber)	Python	Meta-learners avec propensity score (X-Learner), uplift modeling
MatchIt	R	Package de référence pour le matching : nearest neighbor, full, caliper, CEM
WeightIt	R	IPW, overlap weighting, entropy balancing, CBPS
cobalt	R	Diagnostic d’équilibre : Love plots, différences standardisées
Stata	Stata	Commandes `teffects psmatch`, `teffects ipw`, `teffects aipw`

En R, le workflow recommandé est MatchIt pour le matching + cobalt pour le diagnostic d’équilibre + un package d’estimation (sandwich pour les erreurs robustes). En Python, DoWhy offre le framework le plus complet (identification, estimation, réfutation).

Pipeline en 4 étapes

1. Estimer le propensity score. Modélisez P(T = 1 | X) avec une régression logistique ou un modèle ML. Sélectionnez les variables selon le DAG (confondeurs et pronostiques, pas les instruments ni les médiateurs).

2. Ajuster via le propensity score. Appliquez la méthode d’ajustement choisie (matching, IPW, stratification, AIPW). Le choix dépend de l’estimand cible (ATE, ATT, ATO) et de la structure des données.

3. Vérifier l’équilibre. Calculez les différences standardisées, tracez le Love plot, inspectez le chevauchement des distributions. Si l’équilibre est insuffisant, révisez le modèle (étape 1).

4. Estimer l’effet et tester la sensibilité. Estimez le treatment effect sur les données ajustées. Conduisez une analyse de sensibilité pour évaluer la robustesse de l’estimation face à un confondeur non mesuré hypothétique. Le test de Rosenbaum et les E-values quantifient « à quel point un confondeur invisible devrait être fort pour invalider la conclusion ».

Erreurs courantes

Évaluer le modèle par le c-statistic. La capacité prédictive n’est pas l’objectif. L’équilibre des covariables l’est. Un AUC élevé ne garantit rien en termes de biais causal.

Inclure des médiateurs ou des colliders. Inclure des variables causées par le traitement (médiateurs) ou par le traitement ET le résultat (colliders) biaise l’estimation, parfois gravement. Le DAG est l’antidote.

Ignorer le manque d’overlap. Si les distributions de propensity scores ne se chevauchent pas (un groupe n’a que des scores élevés, l’autre que des scores bas), l’estimation est une extrapolation. Triez les individus hors de la zone de chevauchement ou utilisez l’overlap weighting.

Oublier l’analyse de sensibilité. Le propensity score ne peut pas contrôler les confondeurs non mesurés. Sans analyse de sensibilité, vous ne savez pas à quel point votre conclusion est fragile. Les E-values sont simples à calculer et à interpréter.

Traiter les données manquantes de façon naïve. Les données manquantes dans les covariables du propensity score créent un biais de sélection. L’imputation multiple est recommandée quand l’hypothèse de données manquantes aléatoirement (MAR) est plausible.

Utiliser le propensity score en régression directe. Inclure le propensity score comme simple covariable dans un modèle de résultat n’exploite pas la propriété d’équilibrage du score. C’est l’utilisation la moins recommandée.

Propensity score vs régression multivariée

Les deux approches visent à contrôler les confondeurs, mais diffèrent dans leur philosophie. La régression multivariée modélise le résultat Y en fonction du traitement T et des covariables X. Le propensity score modélise le traitement T en fonction des covariables X, puis utilise ce score pour créer des groupes comparables avant d’estimer l’effet.

Les avantages du propensity score : séparation claire entre la phase de design (créer la comparabilité) et la phase d’analyse (estimer l’effet), possibilité de vérifier visuellement l’équilibre avant d’estimer, et réduction de la dépendance à la spécification du modèle de résultat. Les estimateurs doublement robustes (AIPW) combinent les deux approches pour une protection optimale.

En pratique, si les confondeurs sont peu nombreux et les relations linéaires, les deux approches produisent des résultats similaires. Le propensity score devient supérieur quand les confondeurs sont nombreux, les relations non linéaires, ou quand l’overlap entre groupes est limité.

Propensity score et machine learning

L’estimation du propensity score par ML (Random Forest, XGBoost, réseaux de neurones) peut capturer des relations non linéaires et des interactions complexes entre covariables que la régression logistique manque. Cependant, les modèles ML sur-ajustés peuvent produire des propensity scores extrêmes (proches de 0 ou 1), amplifiant les poids IPW.

Le Double Machine Learning (DML) utilise le propensity score estimé par ML dans un cadre formalisé qui garantit des propriétés statistiques valides (racine-n convergence, inférence valide) même avec des modèles ML non paramétriques. C’est la méthode de pointe pour combiner propensity score et ML en inférence causale haute dimension.

Questions fréquentes sur le propensity score

Quelle est la différence entre propensity score matching et IPW ?

Le matching crée des paires d’individus traités/contrôle avec des propensity scores similaires, excluant les individus non appariés. L’IPW pondère toutes les observations par l’inverse de leur probabilité de traitement, sans exclure personne. Le matching estime typiquement l’ATT (effet sur les traités) et réduit la taille d’échantillon. L’IPW estime l’ATE (effet moyen sur la population) et conserve toutes les données mais peut être instable si les poids sont extrêmes. En pratique, l’IPW est plus flexible et l’AIPW (doublement robuste) est la méthode recommandée par défaut dans la littérature récente.

Combien de covariables inclure dans le modèle de propensity score ?

Incluez toutes les variables qui affectent le résultat (confondeurs et pronostiques). N’incluez pas les variables qui affectent uniquement le traitement (instruments) ni les variables qui sont des conséquences du traitement (médiateurs). Un DAG causal est le meilleur guide pour cette décision. En cas de doute, il est généralement plus sûr d’inclure une variable que de l’exclure (sauf si c’est un médiateur ou un collider). L’objectif n’est pas de maximiser la capacité prédictive du modèle mais d’atteindre l’équilibre des covariables entre les groupes.

Le propensity score peut-il gérer les confondeurs non mesurés ?

Non. C’est sa limite fondamentale. Le propensity score ne contrôle que les confondeurs observés et inclus dans le modèle. Si un facteur important influence à la fois le traitement et le résultat mais n’est pas mesuré, le biais persiste. C’est pourquoi l’analyse de sensibilité est indispensable : elle quantifie « à quel point un confondeur non mesuré devrait être fort pour invalider la conclusion ». Les E-values et le test de Rosenbaum sont les outils standards. Si vous avez accès à un instrument valide, les méthodes de variables instrumentales sont une alternative qui gère explicitement les confondeurs non mesurés.

Faut-il utiliser la régression logistique ou le machine learning pour estimer le propensity score ?

La régression logistique reste le standard car elle est simple, interprétable et suffisante dans la plupart des cas. Le ML (Random Forest, XGBoost) peut capturer des non-linéarités et interactions complexes, mais risque de produire des scores extrêmes et de sur-ajuster. Si vous utilisez le ML, combinez-le avec le framework Double Machine Learning (DML) qui garantit des propriétés statistiques valides. En pratique, commencez par la régression logistique, vérifiez l’équilibre, et passez au ML seulement si l’équilibre est insuffisant avec la spécification logistique.

Quand utiliser le propensity score plutôt qu’un A/B test ?

L’A/B test randomisé est toujours préférable quand il est faisable : il contrôle les confondeurs observés ET non observés. Le propensity score est l’alternative quand la randomisation est impossible (éthique, technique, coût) ou quand le traitement a déjà été déployé et que vous voulez estimer son effet rétrospectivement. En digital, c’est fréquent : une fonctionnalité a été lancée sans A/B test, ou les utilisateurs s’auto-sélectionnent (adoptent ou non une feature). Le propensity score permet alors d’estimer l’effet causal à partir des données observationnelles, à condition que les confondeurs importants soient mesurés.