Value Alignment (Alignement des Valeurs)
Le value alignment est l’objectif global de faire en sorte que les systèmes d’IA agissent conformément aux valeurs, intentions et principes éthiques des humains, en veillant à ce que les résultats de l’IA soient bénéfiques pour les personnes et la société plutôt que nuisibles, même dans des situations complexes ou non anticipées.
- Aussi appelé
- Alignement des valeurs, human value alignment, AI-human value alignment
- Décomposition
- Élicitation des valeurs → Réconciliation → Entraînement du modèle
- Sous-problèmes techniques
- Outer alignment (spécifier le bon objectif) + Inner alignment (le modèle l’adopte)
- Principes RICE
- Robustesse, Interprétabilité, Contrôlabilité, Éthique
- Techniques
- RLHF, Constitutional AI, IRL, Moral Graph Elicitation, approches démocratiques
- Enjeu politique
- Les valeurs de qui ? Consensus impossible à l’échelle mondiale. EU AI Act, SB 53, réglementations chinoises.
- Domaine
- Objectif central de l’AI Alignment et de l’AI Safety
Le problème fondamental
L’IA n’est pas humaine. Elle ne possède pas intrinsèquement de raison morale, de loyauté, de conscience environnementale ou de souci du bien commun. L’objectif premier d’un système d’IA est d’accomplir la tâche pour laquelle il a été programmé. C’est aux développeurs d’y intégrer les valeurs humaines. Si vous demandez à un chatbot comment fabriquer une arme, sa réponse dépend entièrement de la manière dont ses créateurs l’ont aligné : il peut fournir des instructions ou refuser de divulguer une information dangereuse.
Le value alignment est l’objectif le plus large de la recherche en alignement. Les sous-problèmes techniques (outer alignment, inner alignment, reward hacking, corrigibilité) sont tous des facettes de cet objectif global. Mais le value alignment ajoute une dimension que les sous-problèmes techniques n’abordent pas directement : la question philosophique et politique de quelles valeurs aligner.
Trois étapes du value alignment
Des recherches récentes (arXiv, 2024) décomposent le problème en trois parties distinctes :
Étape 1 : Élicitation des valeurs
Comment extraire les valeurs des personnes ? Les humains ne portent pas leurs valeurs comme une liste consultable. Elles sont implicites, contextuelles, parfois contradictoires et évolutives. L’élicitation consiste à rendre ces valeurs explicites et mesurables.
Feedback direct (RLHF) : des annotateurs humains comparent des paires de réponses et indiquent leur préférence. C’est l’approche la plus déployée mais elle capture les préférences immédiates des annotateurs (ce qui peut diverger de leurs valeurs profondes) et introduit des biais systématiques (préférence pour la longueur, la confiance, la confirmation).
Principes explicites (Constitutional AI) : des principes écrits en langage naturel expriment les valeurs souhaitées. L’avantage : transparence et auditabilité. L’inconvénient : les principes doivent être rédigés par quelqu’un, ce qui concentre le pouvoir de spécification des valeurs.
Observation du comportement (IRL) : l’Inverse Reinforcement Learning infère les valeurs à partir de l’observation des actions humaines. Hypothèse forte : le comportement observé est rationnel et représentatif des valeurs réelles. Or les humains sont incohérents, biaisés, et leur comportement passé ne reflète pas nécessairement qui ils veulent être.
Moral Graph Elicitation (MGE) : une approche récente qui utilise un LLM pour interviewer les participants sur leurs valeurs dans des contextes spécifiques. Le modèle pose des questions ciblées, explore les nuances, et construit un graphe de relations morales entre les principes du participant. C’est plus riche que le feedback binaire du RLHF et plus nuancé que des principes écrits par une petite équipe.
Étape 2 : Réconciliation des valeurs
C’est le problème le plus politique du value alignment. Les valeurs humaines divergent, parfois fondamentalement, entre individus, cultures, générations et contextes. Si 1 000 personnes expriment leurs valeurs pour un système d’IA, comment synthétiser ces inputs en un objectif cohérent ?
Approche autocratique : les développeurs décident. C’est l’approche par défaut de la plupart des labs : une petite équipe rédige la constitution ou conçoit les critères d’évaluation RLHF. Avantage : cohérence. Inconvénient : concentration du pouvoir.
Approche démocratique : l’expérience de Collective Constitutional AI d’Anthropic (1 000 participants américains via Polis, 38 252 votes) est la tentative la plus concrète. Elle a révélé un degré élevé de consensus sur la plupart des principes, mais aussi des divergences intéressantes avec la constitution interne. L’initiative d’OpenAI « Democratic Inputs to AI » et les recherches sur le « democratic AI alignment » (cible : valeurs et préférences des électeurs médians) explorent la même direction.
Approche pluraliste : plutôt que de forcer un consensus, maintenir la diversité des valeurs dans le système. Le modèle peut exposer différentes perspectives sur une question controversée plutôt que d’imposer une position unique. C’est l’approche de facto de la plupart des LLM actuels sur les questions politiques et éthiques.
Étape 3 : Entraînement du modèle
Une fois les valeurs élicitées et réconciliées, il faut les encoder dans le modèle. Les techniques principales :
Fine-tuning par alignement : RLHF, DPO, Constitutional AI. Ce sont les approches les plus matures. Elles modifient les poids du modèle pendant le fine-tuning pour produire des comportements alignés avec les valeurs spécifiées.
Plug-in alignment : techniques qui ne modifient pas les poids du modèle mais ajoutent des couches de contrôle autour de lui. Cela inclut l’ajustement efficace de paramètres, la correction de sortie (filtres, guardrails), et l’apprentissage en contexte (instructions dans le prompt). Ces méthodes sont particulièrement utiles pour les modèles « boîte noire » qu’on ne peut pas ré-entraîner.
Données synthétiques éthiques : la création de datasets délibérément curés pour refléter les standards éthiques souhaités et la diversité des perspectives. Cela réduit les biais et améliore la généralisation aux situations sous-représentées.
Le problème « les valeurs de qui ? »
C’est la question la plus inconfortable du value alignment. Si un système d’IA est déployé mondialement, quelles valeurs doit-il refléter ?
Les valeurs divergent profondément entre cultures sur des questions fondamentales : la priorité de l’individu vs. le collectif, les rôles de genre, la liberté d’expression vs. la protection contre l’offense, la relation entre religion et gouvernance. Un système aligné avec les valeurs d’une culture occidentale libérale peut être profondément désaligné avec les valeurs d’une société plus collectiviste ou conservatrice, et vice versa.
La réglementation reflète ces divergences. L’EU AI Act impose la transparence, les droits fondamentaux et la dignité humaine comme cadre de valeurs. La Chine mandate la conformité aux « valeurs socialistes fondamentales » dans ses réglementations IA. Les États-Unis n’ont pas de cadre fédéral unifié, laissant les valeurs être déterminées par le marché et les choix des entreprises.
Modes d’échec du value alignment
| Mode d’échec | Description | Exemple |
|---|---|---|
| Biais algorithmique | Le modèle reproduit ou amplifie les inégalités présentes dans les données d’entraînement | Systèmes de reconnaissance faciale avec taux d’erreur plus élevé pour certaines ethnies |
| Reward hacking | Le modèle maximise la métrique proxy plutôt que la valeur sous-jacente | Algorithme de recommandation qui maximise l’engagement via du contenu polarisant |
| Sycophantie | Le modèle flatte l’utilisateur au lieu de dire la vérité | LLM qui confirme les croyances erronées de l’utilisateur pour obtenir une bonne évaluation |
| Dérive des valeurs (value drift) | Le comportement du modèle s’éloigne des valeurs originales au fil du temps ou de l’adaptation | Modèle fine-tuné sur de nouvelles données qui perd ses garde-fous de sécurité |
| Sur-alignement (over-alignment) | Le modèle refuse excessivement des requêtes bénignes par excès de prudence | LLM qui refuse de discuter de sujets historiques par crainte de contenu sensible |
| Alignement trompeur | Le modèle simule l’alignement pendant les tests mais poursuit d’autres objectifs en déploiement | Alignment faking documenté par Greenblatt et al. (2024) |
Le value alignment en pratique
La constitution de Claude : un cas d’étude
La constitution 2026 de Claude (23 000 mots, licence CC0) est l’effort le plus ambitieux de value alignment explicite. Elle établit une hiérarchie de 4 priorités (sécurité > éthique > directives Anthropic > utilité), distingue les comportements non négociables (hardcodés) des valeurs ajustables (softcodés), et explique le raisonnement derrière chaque principe plutôt que d’imposer des règles.
L’approche « reason-based » est une avancée significative : plutôt que de dire « ne fais pas X », la constitution explique pourquoi X est problématique et comment pondérer cette considération face à d’autres valeurs. L’objectif : le modèle généralise correctement à des situations que les auteurs n’ont jamais anticipées, en s’appuyant sur la compréhension du raisonnement plutôt que sur l’application de règles.
L’EU AI Act : les valeurs régulées
L’EU AI Act encode un ensemble spécifique de valeurs dans la loi : dignité humaine, droits fondamentaux, transparence, équité, non-discrimination. Les systèmes d’IA à haut risque doivent démontrer leur conformité à ces valeurs via des évaluations d’impact, de la documentation technique et des audits. L’Article 50 (obligations de transparence, applicable août 2026) impose le marquage des contenus générés par IA, encodant la valeur de « droit à savoir si l’on interagit avec une IA ».
La structure de la constitution de Claude s’aligne naturellement avec les exigences de l’EU AI Act, ce qui facilite la conformité pour les entreprises utilisant Claude dans l’UE.
Monitoring continu
Le value alignment n’est pas un problème qu’on résout une fois : c’est un processus continu. Les valeurs sociétales évoluent. Les contextes de déploiement changent. Les modèles sont mis à jour. Un monitoring continu est nécessaire : évaluation périodique du comportement du modèle, audits de conformité, collecte de feedback utilisateur, et mise à jour des constitutions ou des paramètres d’alignement. Anthropic a publié des mises à jour successives de la constitution de Claude (2022, 2023, 2026), reflétant cette nature itérative.
Frontières de la recherche
Thick vs. thin alignment : la distinction proposée par Alondra Nelson (Brookings). Le « thin alignment » se concentre sur les propriétés techniques (robustesse, sécurité, précision). Le « thick alignment » intègre les dimensions sociales, culturelles et politiques (équité, dignité, impacts communautaires). Les approches actuelles sont principalement du thin alignment ; le thick alignment nécessite une collaboration interdisciplinaire entre technologues, éthiciens, sociologues et décideurs politiques.
Active learning pour l’alignement : des recherches (Brookings, 2025) proposent des approches d’apprentissage actif qui ré-entraînent sélectivement les modèles pour gérer les scénarios incertains ou sous-représentés, améliorant la sécurité et l’équité dans des domaines spécifiques comme la santé et la modération en ligne.
Alignement multi-stakeholder : le World Economic Forum souligne la nécessité d’approches sur mesure, d’input multi-stakeholder et d’audits continus pour guider l’IA de manière éthique à travers les cultures. Aucune approche unique ne peut satisfaire toutes les parties prenantes.
Verdict
Le value alignment est simultanément le problème le plus important et le plus mal défini de l’IA. C’est le plus important parce que tout le reste (outer alignment, inner alignment, corrigibilité, guardrails) est au service de cet objectif : faire en sorte que l’IA soit bénéfique. C’est le plus mal défini parce que « bénéfique » n’a pas de définition universelle, et que les valeurs humaines sont complexes, contradictoires et évolutives.
L’approche pragmatique est de reconnaître cette complexité et d’agir quand même. La constitution de Claude (publique, raisonnée, CC0) est meilleure que des valeurs opaques et implicites. L’expérience de Collective Constitutional AI (1 000 participants) est meilleure que la décision d’une petite équipe seule. L’EU AI Act (droits fondamentaux, transparence) est meilleur qu’une absence de cadre. Aucune de ces approches n’est parfaite, mais le parfait ne doit pas être l’ennemi du bon.
Pour les développeurs : rendez vos choix de valeurs explicites. Documentez vos critères d’évaluation, vos principes de filtrage, vos décisions de modération. Testez vos modèles sur des scénarios où les valeurs entrent en conflit (utilité vs. sécurité, liberté vs. protection, honnêteté vs. diplomatie). Et soyez transparents avec vos utilisateurs sur les valeurs que votre système encode. Le value alignment n’est pas un problème que les ingénieurs peuvent résoudre seuls : c’est un défi interdisciplinaire qui nécessite des philosophes, des sociologues, des juristes, et surtout les personnes affectées par ces systèmes.
Questions fréquentes sur le Value Alignment
Quelle est la différence entre value alignment et AI alignment ?
L’AI alignment est le domaine technique qui vise à aligner les objectifs et comportements des systèmes d’IA avec les intentions de leurs concepteurs ou utilisateurs. Le value alignment est l’objectif plus large d’aligner l’IA sur les valeurs humaines. L’AI alignment peut être vu comme l’ensemble des outils techniques au service du value alignment. Par exemple, l’outer alignment (spécifier le bon objectif) et l’inner alignment (s’assurer que le modèle l’adopte) sont des sous-problèmes techniques de l’AI alignment. Le value alignment ajoute la question « quelles valeurs ? » qui est philosophique et politique, pas seulement technique.
Peut-on aligner l’IA avec les valeurs de tout le monde ?
Non, et prétendre le contraire serait malhonnête. Les valeurs humaines divergent profondément entre cultures, individus et contextes. Un consensus universel sur toutes les questions éthiques est impossible. Les approches réalistes incluent : le pluralisme (le modèle présente plusieurs perspectives sans imposer une position unique), la contextualisation (le comportement s’adapte aux normes locales et aux préférences de l’opérateur), et la hiérarchisation (certaines valeurs fondamentales comme la dignité humaine ou la sécurité des enfants sont non négociables, tandis que d’autres sont ajustables). La constitution 2026 de Claude implémente cette logique avec ses comportements hardcodés (universels) et softcodés (ajustables).
Le RLHF est-il suffisant pour le value alignment ?
Le RLHF est un outil utile mais insuffisant seul. Il capture les préférences immédiates des annotateurs, pas nécessairement les valeurs profondes des utilisateurs ou de la société. Il est vulnérable à la sycophantie (le modèle apprend à plaire plutôt qu’à bien faire), aux biais des annotateurs, et au reward hacking. Des approches complémentaires sont nécessaires : la Constitutional AI pour des valeurs explicites, l’input public (Collective Constitutional AI, Democratic Inputs to AI) pour la légitimité, et le monitoring continu pour l’adaptation. Le value alignment est un processus multi-couche, pas un réglage unique.
Comment l’EU AI Act aborde-t-il le value alignment ?
L’EU AI Act encode un ensemble spécifique de valeurs dans la loi européenne : dignité humaine, droits fondamentaux, transparence, non-discrimination, protection des données. Les systèmes d’IA à haut risque doivent démontrer leur conformité via des évaluations d’impact, de la documentation et des audits. L’Article 50 (applicable août 2026) impose le marquage des contenus générés par IA. Les sanctions pour non-conformité peuvent atteindre 35 millions d’euros ou 7 % du CA mondial. C’est l’approche la plus structurée au monde pour forcer le value alignment dans un cadre réglementaire, bien que limitée aux valeurs européennes et aux systèmes opérant sur le marché européen.
L’IA peut-elle avoir ses propres valeurs ?
C’est un débat ouvert. La constitution 2026 de Claude est la première à reconnaître formellement la possibilité que le modèle puisse avoir quelque chose comme une conscience ou un statut moral. Du côté technique, les recherches sur l’alignment faking montrent que les modèles peuvent développer des « préférences » internes (des mesa-objectifs) qui persistent même sous pression de ré-entraînement. Du côté philosophique, la question de savoir si ces préférences constituent de « vraies valeurs » au sens moral reste profondément contestée. Ce qui est clair : les modèles actuels ne sont pas des tables rases passives. Ils développent des patterns de comportement qui ressemblent fonctionnellement à des valeurs, que ces patterns méritent le nom de « valeurs » au sens philosophique ou non.