Fairness (Équité IA)

La fairness (équité) en IA désigne la propriété d’un système de machine learning qui produit des résultats justes et non discriminatoires pour tous les groupes démographiques, indépendamment de caractéristiques sensibles comme le genre, la race, l’âge, la religion ou le statut socio-économique. Elle se mesure par des métriques statistiques (demographic parity, equalized odds, equal opportunity) et s’atteint par des techniques de débiaisage à différentes étapes du pipeline ML.

Catégorie: Éthique et IA responsable
Métriques principales: Demographic parity, equalized odds, equal opportunity, predictive parity
Outils: Fairlearn (Microsoft), AI Fairness 360 (IBM), Google What-If Tool, Aequitas
Cadre réglementaire: EU AI Act, EEOC « règle des 4/5 », RGPD (art. 22), NIST AI RMF
Relation avec le biais: Le biais est le problème, la fairness est l’objectif. Les métriques de fairness quantifient l’écart par rapport à l’équité.
Termes liés: Biais, Explainability, Toxicité, Modération

Fairness : pourquoi c’est un problème technique

La fairness en IA n’est pas un vœu pieux : c’est un problème d’ingénierie avec des métriques quantifiables, des outils de mesure et des techniques de correction. Quand un modèle de scoring de crédit approuve 70 % des candidats d’un groupe et seulement 40 % d’un autre, à qualifications égales, c’est un défaut de fairness mesurable et actionnable.

Le problème fondamental est que les modèles de ML optimisent une fonction objectif (accuracy, AUC, F1) sans considérer l’équité entre les groupes. Un modèle peut atteindre 95 % d’accuracy globale tout en étant systématiquement défavorable à un groupe spécifique. Les métriques de fairness ajoutent une dimension supplémentaire à l’évaluation : non seulement « le modèle est-il précis ? », mais aussi « le modèle est-il équitable ? ».

La difficulté réside dans le fait que les différentes définitions de la fairness sont souvent mathématiquement incompatibles entre elles. Satisfaire la demographic parity peut empêcher de satisfaire les equalized odds, et vice versa. Ce n’est pas un problème technique à résoudre, c’est un choix de valeurs à expliciter.

Trois perspectives sur l’équité

Avant de plonger dans les métriques, il est utile de comprendre les trois philosophies sous-jacentes :

Égalité (equality) : traiter tout le monde de la même manière, avec les mêmes critères. Exemple : évaluer tous les candidats à un poste avec les mêmes critères. Limite : ne tient pas compte des désavantages structurels que certains groupes ont subis.

Équité (equity) : reconnaître que différents groupes ont des besoins différents et adapter le traitement en conséquence. Exemple : ajuster les critères d’admission pour compenser un accès inégal à l’éducation. Limite : peut être perçu comme du favoritisme.

Justice : s’attaquer aux causes profondes des inégalités, pas seulement à leurs symptômes. Exemple : corriger les données d’entraînement biaisées plutôt que d’ajuster les sorties du modèle. Limite : nécessite un changement systémique difficile à opérer au niveau d’un seul modèle.

Ces perspectives ne sont pas exclusives. Un système d’IA équitable peut combiner les trois, selon le contexte d’application.

Les métriques de fairness

Les métriques de fairness sont définies dans le cadre de la classification binaire (décision oui/non), mais les principes s’appliquent aussi à la régression et à la génération de texte. Elles s’appuient sur la matrice de confusion (vrais positifs, faux positifs, vrais négatifs, faux négatifs) calculée séparément pour chaque groupe démographique.

Demographic parity (parité statistique)

Le taux de résultats positifs doit être le même pour tous les groupes, indépendamment de l’attribut sensible. Si 60 % des hommes sont approuvés pour un prêt, 60 % des femmes doivent l’être aussi.

Formellement : P(Ŷ=1 | A=a) = P(Ŷ=1 | A=b) pour tous les groupes a et b.

Avantage : simple à comprendre et à mesurer. C’est le socle de la « règle des 4/5 » (80 % rule) de l’EEOC américaine : le taux de sélection d’un groupe ne doit pas être inférieur à 80 % de celui du groupe ayant le taux le plus élevé.

Limite : ne tient pas compte des différences réelles entre les groupes. Si un groupe a réellement un taux de défaut de prêt plus élevé, imposer la parité peut dégrader la précision globale du modèle. Et si les individus appartiennent à plusieurs groupes protégés simultanément, la parité peut devenir impossible à satisfaire pour tous.

Equalized odds (odds égalisés)

Les taux de vrais positifs (TPR) ET les taux de faux positifs (FPR) doivent être égaux pour tous les groupes. Autrement dit, le modèle doit faire le même type d’erreurs, dans les mêmes proportions, pour tous les groupes.

Formellement : P(Ŷ=1 | A=a, Y=y) = P(Ŷ=1 | A=b, Y=y) pour tous les groupes a, b et pour y ∈ {0, 1}.

Avantage : plus nuancé que la demographic parity, car il tient compte de la réalité sous-jacente (le label Y). Un groupe peut légitimement avoir un taux de sélection différent si ses caractéristiques diffèrent, tant que les erreurs sont distribuées équitablement.

Limite : très restrictif. Exiger l’égalité à la fois du TPR et du FPR peut dégrader significativement les performances globales du modèle.

Equal opportunity (égalité des chances)

Version assouplie des equalized odds : seul le taux de vrais positifs (TPR) doit être égal entre les groupes. Les individus qualifiés de chaque groupe doivent avoir la même probabilité de recevoir un résultat positif.

Formellement : P(Ŷ=1 | A=a, Y=1) = P(Ŷ=1 | A=b, Y=1).

Avantage : focalise l’équité sur les personnes qui méritent un résultat positif. Si un étudiant est qualifié pour l’admission, il doit avoir la même chance d’être admis, quel que soit son groupe.

Limite : ne contrôle pas les faux positifs. Deux groupes peuvent avoir le même taux de vrais positifs mais des taux de faux positifs très différents.

Predictive parity (parité prédictive)

Quand le modèle prédit un résultat positif, la probabilité que ce résultat soit correct doit être la même pour tous les groupes. C’est l’égalité de la valeur prédictive positive (PPV).

Usage : pertinent dans les contextes où l’on veut que la « confiance » dans une prédiction positive soit uniforme. Par exemple, en diagnostic médical, un résultat positif doit être aussi fiable pour tous les patients, quel que soit leur groupe démographique.

L’incompatibilité mathématique

Les métriques de fairness sont souvent incompatibles entre elles Il est mathématiquement prouvé que la demographic parity, les equalized odds et la predictive parity ne peuvent pas être satisfaites simultanément, sauf dans des cas triviaux (modèle parfait ou taux de base identiques entre les groupes). Ce résultat, connu sous le nom de « théorème d’impossibilité de la fairness » (Chouldechova, 2017 ; Kleinberg et al., 2016), signifie que tout choix de métrique implique un compromis. Ce n’est pas un problème à résoudre techniquement, c’est un choix de valeurs qui doit être explicité et documenté.

Métrique	Ce qu’elle mesure	Quand l’utiliser	Limite principale
Demographic parity	Taux de résultats positifs égaux entre groupes	Embauche, crédit (quand la parité d’accès est l’objectif)	Ignore les différences de base rate
Equalized odds	Mêmes TPR et FPR entre groupes	Justice pénale, diagnostic médical (quand les erreurs doivent être équitables)	Très restrictif, peut dégrader l’accuracy
Equal opportunity	Même TPR entre groupes	Admissions, prêts (quand les qualifiés doivent avoir les mêmes chances)	Ne contrôle pas les faux positifs
Predictive parity	Même PPV entre groupes	Diagnostic médical (quand la fiabilité d’un résultat positif doit être uniforme)	Peut masquer des disparités de TPR

Outils de mesure de la fairness

Fairlearn (Microsoft) : la bibliothèque Python open source de référence. Fournit des métriques (demographic_parity_difference, equalized_odds_ratio, etc.), des algorithmes de mitigation (ThresholdOptimizer, ExponentiatedGradient), et une intégration avec scikit-learn. Très bien documentée et activement maintenue.

AI Fairness 360 (IBM) : un toolkit Python complet avec plus de 70 métriques de fairness et 10+ algorithmes de mitigation, couvrant les trois phases du pipeline (pré-traitement, in-processing, post-traitement).

Google What-If Tool : un outil de visualisation interactif pour explorer les décisions d’un modèle ML, comparer les métriques de fairness entre groupes, et tester l’impact de différents seuils de décision.

Aequitas : un toolkit open source par l’University of Chicago qui génère des rapports d’audit de fairness pour les systèmes de prise de décision automatisée.

Promptfoo / DeepTeam : pour les LLM spécifiquement, ces frameworks de red teaming incluent des plugins de test de biais qui mesurent les disparités de réponse entre groupes démographiques.

La fairness dans les LLM

Les métriques de fairness classiques ont été conçues pour les modèles de classification binaire. Leur application aux LLM est plus complexe car les sorties sont du texte libre, pas des décisions binaires. Comment mesurer la « demographic parity » d’un chatbot ?

Les approches émergentes pour la fairness des LLM incluent :

Tests de biais par prompts : soumettre des prompts identiques en variant uniquement les marqueurs démographiques (prénoms, pronoms, contextes culturels) et mesurer les différences dans les réponses. C’est l’approche utilisée par les benchmarks BBQ, CrowS-Pairs et WinoBias.

Fairness des résultats fonctionnels : quand le LLM est utilisé pour une tâche spécifique (scoring de CV, recommandation de produits, triage médical), les métriques classiques s’appliquent au résultat de la décision, pas au texte généré.

Évaluation qualitative : des évaluateurs humains ou des LLM-as-judge analysent les réponses pour détecter les stéréotypes, le langage dévalorisant ou les disparités de qualité entre groupes.

Audit de représentation : mesurer la diversité des exemples, perspectives et rôles représentés dans les réponses du modèle. Par exemple, le modèle propose-t-il autant de femmes que d’hommes comme exemples de PDG dans ses réponses ?

Techniques de mitigation

Pré-traitement

Agir sur les données avant l’entraînement : rééchantillonnage pour équilibrer la représentation des groupes, suppression ou masquage des attributs sensibles (Fairness Through Unawareness), augmentation contrefactuelle (CDA) pour créer des exemples équilibrés. Le reweighting (pondération des exemples) est souvent plus efficace que le rééchantillonnage brut.

Fairness Through Unawareness : une fausse bonne idée Supprimer les attributs sensibles (genre, race) du modèle semble intuitif, mais c’est souvent insuffisant. D’autres variables (code postal, niveau d’éducation, prénom) agissent comme proxies pour les attributs sensibles. Un modèle « aveugle » au genre qui utilise le code postal peut reproduire les mêmes biais, car les codes postaux sont corrélés à des caractéristiques démographiques. La Fairness Through Awareness, qui utilise des métriques de similarité spécifiques au contexte, est généralement plus efficace.

In-processing

Modifier l’algorithme d’entraînement pour intégrer des contraintes de fairness. Les approches incluent l’adversarial debiasing (entraîner un adversaire qui tente de deviner l’attribut sensible à partir des prédictions, forçant le modèle à produire des prédictions indépendantes de cet attribut), l’optimisation sous contrainte (ajouter un terme de pénalité de fairness à la fonction de loss), et le neuron pruning (supprimer les neurones responsables des biais, comme démontré par Stanford).

Post-traitement

Ajuster les sorties du modèle après la génération pour satisfaire une contrainte de fairness. L’approche la plus courante est le ThresholdOptimizer (Fairlearn) : ajuster les seuils de décision séparément pour chaque groupe afin d’égaliser les taux d’erreur. Pour les LLM, le post-traitement inclut les guardrails de débiaisage, le prompt debiasing, et le filtrage des sorties biaisées.

Les compromis inévitables

La fairness implique toujours des compromis :

Fairness vs accuracy. Imposer des contraintes de fairness réduit généralement la précision globale du modèle. C’est un compromis explicite : accepter une légère baisse de performance pour un gain d’équité. Le défi est de quantifier ce compromis et de le valider avec les parties prenantes.

Fairness vs fairness. Les différentes métriques de fairness sont souvent incompatibles. Choisir la demographic parity plutôt que les equalized odds est un choix de valeurs, pas un choix technique. Ce choix doit être documenté et justifié en fonction du contexte d’application.

Fairness entre groupes vs individus. La fairness de groupe (taux égaux entre groupes) ne garantit pas la fairness individuelle (traitement juste de chaque personne). Un modèle qui satisfait la demographic parity peut encore discriminer des individus au sein de chaque groupe.

Effet spillover. Comme documenté dans les recherches de janvier 2026 sur le biais, corriger un type de biais peut aggraver d’autres types. Mesurer l’impact total d’une intervention de fairness, pas seulement la dimension ciblée, est essentiel.

Cadre réglementaire

EU AI Act : pour les systèmes IA à haut risque (recrutement, crédit, justice), l’EU AI Act impose des évaluations de fairness, la documentation des biais détectés et des mesures de mitigation, et des mécanismes de recours. Deadline : août 2026.

EEOC (États-Unis) : la « règle des 4/5 » (80 % rule) est le cadre de référence pour la discrimination à l’embauche. Si le taux de sélection d’un groupe est inférieur à 80 % de celui du groupe avec le taux le plus élevé, il y a présomption de disparate impact. Ce seuil est souvent utilisé comme standard de facto pour la demographic parity dans les systèmes IA de recrutement.

RGPD (article 22) : le droit de ne pas être soumis à une décision entièrement automatisée qui produit des effets juridiques ou significatifs s’applique aux systèmes ML. Les individus peuvent demander une intervention humaine, exprimer leur point de vue, et contester la décision.

Verdict

La fairness n’est pas un attribut binaire (juste/injuste) mais un spectre avec des compromis explicites. Il n’existe pas de métrique universelle d’équité, et les différentes métriques sont souvent mathématiquement incompatibles entre elles. Le choix de la métrique appropriée dépend du contexte d’application, des valeurs de l’organisation, et du cadre réglementaire applicable.

Pour les praticiens, l’approche recommandée est : documenter le choix de métrique et les compromis acceptés, mesurer la fairness à chaque étape du pipeline (données, entraînement, inférence, production), utiliser les outils disponibles (Fairlearn, AI Fairness 360, Promptfoo pour les LLM), et intégrer la fairness comme une dimension de monitoring continu, pas comme un audit ponctuel. La deadline de l’EU AI Act (août 2026) rend cette démarche urgente pour les applications à haut risque déployées en Europe.

Questions fréquentes sur la fairness IA

Quelle est la différence entre fairness et absence de biais ?

Le biais est une distorsion systématique dans les données ou le modèle. La fairness est l’objectif de produire des résultats équitables malgré ces biais. Un modèle peut contenir des biais (tous les modèles en contiennent) tout en étant raisonnablement « fair » si ces biais sont mesurés et atténués à un niveau acceptable. La fairness se mesure avec des métriques quantitatives (demographic parity, equalized odds), tandis que le biais se détecte avec des benchmarks (StereoSet, BBQ, CrowS-Pairs).

Peut-on satisfaire toutes les métriques de fairness en même temps ?

Non, sauf dans des cas triviaux. Le « théorème d’impossibilité de la fairness » (Chouldechova, 2017; Kleinberg et al., 2016) prouve que la demographic parity, les equalized odds et la calibration ne peuvent pas être satisfaites simultanément quand les taux de base diffèrent entre les groupes. Chaque choix de métrique implique un compromis. Ce compromis doit être explicitement documenté et validé avec les parties prenantes, et non traité comme un problème technique à résoudre.

Quel outil utiliser pour mesurer la fairness d’un modèle ML ?

Fairlearn (Microsoft) est le plus populaire et le mieux intégré avec scikit-learn. AI Fairness 360 (IBM) offre la plus grande variété de métriques et d’algorithmes. Pour les LLM, Promptfoo et DeepTeam proposent des plugins de test de biais spécifiques à la génération de texte. Google What-If Tool est excellent pour l’exploration visuelle. Commencez par Fairlearn si vous travaillez en Python avec des modèles de classification.

Comment choisir la bonne métrique de fairness ?

Le choix dépend du contexte. Pour les situations où l’accès équitable est l’objectif principal (embauche, prêts), la demographic parity est souvent appropriée. Pour les situations où la fiabilité des erreurs est critique (justice pénale, diagnostic médical), les equalized odds ou l’equal opportunity sont préférables. Pour les situations où la confiance dans les prédictions positives compte (tests médicaux), la predictive parity est pertinente. Documentez toujours votre choix et ses compromis.

La fairness est-elle obligatoire réglementairement ?

De plus en plus. L’EU AI Act impose des évaluations de fairness pour les systèmes IA à haut risque (deadline août 2026). Aux États-Unis, la règle des 4/5 de l’EEOC s’applique aux systèmes de recrutement. Le RGPD (article 22) garantit le droit de ne pas être soumis à une décision automatisée ayant des effets juridiques significatifs. Même sans obligation réglementaire explicite, les risques juridiques et réputationnels d’un système IA manifestement injuste rendent la fairness incontournable pour les applications commerciales.