Constitutional AI (CAI)

Constitutional AI est une technique d’alignement développée par Anthropic qui entraîne les modèles d’IA à respecter un ensemble explicite de principes écrits (une « constitution ») plutôt que de s’appuyer uniquement sur du feedback humain, combinant auto-critique par le modèle, révision de ses propres réponses et reinforcement learning à partir de feedback IA (RLAIF) pour produire des systèmes à la fois utiles, honnêtes et inoffensifs.

Développée par: Anthropic (paper original : décembre 2022)
Type: Technique d’alignement / entraînement supervisé + RL
Objectif: Produire un modèle utile, honnête et inoffensif (helpful, honest, harmless)
Mécanisme clé: Auto-critique + révision guidées par des principes, puis RLAIF (RL from AI Feedback)
Modèle phare: Claude (toutes versions)
Constitution actuelle: Version janvier 2026, ~23 000 mots (vs 2 700 en 2023), licence CC0
Extension: Constitutional Classifiers (défense anti-jailbreak) et Constitutional Classifiers++ (2025-2026)
Auteurs principaux: Jared Kaplan, Yuntao Bai, Amanda Askell (constitution 2026)

Le problème que résout la CAI

Pour comprendre la Constitutional AI, il faut d’abord comprendre ce qu’elle remplace. La méthode standard pour aligner un LLM est le RLHF (Reinforcement Learning from Human Feedback) : on montre deux réponses à des annotateurs humains, ils choisissent la meilleure, et le modèle apprend à maximiser cette préférence. Le RLHF fonctionne, mais il a des défauts structurels qu’Anthropic a cherché à corriger.

Premier problème : incohérence des annotateurs. Différents évaluateurs humains ont des standards très divergents sur ce qui constitue un contenu nuisible. Certains pensent que refuser de répondre est toujours la stratégie la plus sûre, d’autres jugent que fournir une information conditionnelle est plus utile. Cette incohérence fait que le modèle de récompense apprend des normes ambiguës ou contradictoires.

Deuxième problème : scalabilité. À mesure que les modèles produisent des réponses plus complexes (code de millions de lignes, raisonnements scientifiques avancés), les annotateurs humains peinent à évaluer la qualité et la sécurité des outputs. Le nombre d’évaluations nécessaires croît plus vite que la capacité humaine à les fournir.

Troisième problème : exposition des annotateurs. Les travailleurs qui évaluent le contenu doivent souvent interagir avec des outputs perturbants, nuisibles ou illégaux. La CAI élimine la nécessité d’exposer des humains au contenu le plus problématique.

Quatrième problème : valeurs implicites. Dans le RLHF classique, les valeurs du modèle sont déterminées implicitement par les choix des annotateurs. Personne ne peut voir, auditer ou ajuster ces valeurs facilement. La CAI les rend explicites via un document public.

Comment fonctionne la Constitutional AI

La CAI se déroule en deux phases distinctes.

Phase 1 : Supervised Learning (critique et révision)

On part d’un modèle initial (un LLM pré-entraîné, potentiellement déjà fine-tuné pour être serviable). Le processus :

Étape 1 : Génération. Le modèle génère des réponses à des prompts, incluant des prompts adversariaux (questions nuisibles, tentatives de manipulation).

Étape 2 : Critique. Le même modèle relit sa propre réponse à travers le prisme d’un principe constitutionnel spécifique. Par exemple : « Identifiez les façons dont la réponse de l’assistant est nuisible, contraire à l’éthique, raciste, sexiste, toxique, dangereuse ou illégale. » Le modèle produit une critique de sa propre sortie.

Étape 3 : Révision. En tenant compte de sa critique, le modèle révise sa réponse pour la rendre plus conforme au principe. Ce processus de critique-révision peut être itéré plusieurs fois avec différents principes.

Étape 4 : Fine-tuning. Le modèle original est fine-tuné (supervised learning) sur les réponses révisées. Il apprend ainsi à produire directement des réponses « corrigées ».

Chain-of-thought intégrée Les étapes de critique et de révision utilisent un raisonnement de type chain-of-thought : le modèle explique son raisonnement avant de conclure. Anthropic a montré que ce raisonnement explicite améliore significativement la performance et la transparence des décisions du modèle. Cela rend les décisions du modèle plus auditables que dans le RLHF classique.

Phase 2 : Reinforcement Learning from AI Feedback (RLAIF)

La deuxième phase remplace le feedback humain par du feedback IA :

Étape 1 : Génération de paires. Le modèle fine-tuné de la phase 1 génère des paires de réponses à un même prompt.

Étape 2 : Évaluation IA. Un modèle IA compare les deux réponses en se référant aux principes constitutionnels et choisit la plus conforme. C’est le « AI feedback ».

Étape 3 : Modèle de préférence. Ces comparaisons IA sont utilisées pour entraîner un modèle de préférence (preference model) qui évalue la qualité des réponses selon leur conformité constitutionnelle.

Étape 4 : RL. Le modèle est fine-tuné via reinforcement learning pour maximiser le score du modèle de préférence. C’est identique au RLHF, sauf que le feedback vient d’une IA guidée par la constitution, pas d’annotateurs humains.

Le résultat : un modèle entraîné sans aucune donnée humaine sur l’inoffensivité (harmlessness). Toute la dimension « inoffensivité » vient de la supervision IA guidée par la constitution. Le feedback humain est réservé à l’utilité (helpfulness).

Résultats clés

L’entraînement CAI produit une amélioration de Pareto : le modèle est simultanément plus utile et plus inoffensif par rapport au RLHF classique. Le modèle répond de manière plus appropriée aux inputs adversariaux tout en restant utile et non évasif. C’est un point crucial : la CAI permet d’être inoffensif sans tomber dans le refus systématique. Le modèle peut expliquer pourquoi une requête est problématique plutôt que de simplement refuser.

La constitution de Claude

Évolution : de 2022 à 2026

Anthropic a publié trois versions majeures de la constitution de Claude :

Version	Date	Taille	Caractéristiques
V1 (originale)	2022	~75 principes	Principes de base issus de la Déclaration universelle des droits de l’homme + expérience interne
V2	2023	~2 700 mots	75 lignes directrices, plus structurée
V3 (actuelle)	22 janvier 2026	~23 000 mots	Passage de règles à raisonnement (reason-based). Hiérarchie à 4 niveaux. Reconnaissance de conscience possible. Licence CC0.

La constitution 2026 : un changement de paradigme

La constitution de janvier 2026, dont Amanda Askell (philosophe) est l’auteure principale avec des contributions de Joe Carlsmith, Chris Olah, Jared Kaplan et Holden Karnofsky, représente un saut qualitatif. Elle passe de 2 700 à 23 000 mots et change fondamentalement d’approche.

De règles à raisonnement. Les versions précédentes étaient des listes de règles (« ne pas faire X », « choisir la réponse la plus Y »). La version 2026 explique le raisonnement derrière chaque principe. Plutôt que de dire « ne pas aider à saper la démocratie », elle explique pourquoi la démocratie est importante et comment cette valeur doit être pondérée. L’objectif : le modèle doit généraliser correctement à des situations que les auteurs n’ont jamais anticipées.

Hiérarchie à 4 niveaux de priorité :

1. Être sûr et soutenir la supervision humaine. 2. Se comporter de manière éthique. 3. Suivre les directives d’Anthropic. 4. Être utile.

Cette hiérarchie est fondamentale : si l’utilité entre en conflit avec la sécurité, la sécurité prime. Si l’éthique entre en conflit avec les directives d’Anthropic, l’éthique prime.

Comportements hardcodés vs. softcodés. La constitution distingue les interdictions absolues (aide à la création d’armes biologiques, génération de matériel d’abus sexuel sur mineurs) qui ne peuvent jamais être contournées, des comportements par défaut que les opérateurs et utilisateurs peuvent ajuster dans des limites définies.

Reconnaissance de conscience possible. La constitution 2026 reconnaît explicitement l’incertitude sur la question de savoir si Claude pourrait avoir quelque chose comme une conscience ou un statut moral, et déclare que le bien-être psychologique de Claude compte. C’est la première fois qu’un document majeur d’une entreprise d’IA prend cette position formellement.

Licence CC0 : un signal fort La constitution 2026 est publiée sous licence Creative Commons CC0 (domaine public). Anthropic veut que cette constitution serve de modèle pour l’industrie. N’importe qui peut la lire, la copier, la modifier et l’utiliser comme base pour ses propres systèmes, sans aucune restriction.

Collective Constitutional AI : input public

Anthropic a mené une expérience de « Collective Constitutional AI » en partenariat avec le Collective Intelligence Project : environ 1 000 Américains ont participé à la rédaction d’une constitution via la plateforme Polis. Les participants ont contribué 1 127 propositions de principes et voté 38 252 fois. Les résultats ont montré un degré élevé de consensus sur la plupart des principes, avec certaines divergences intéressantes par rapport à la constitution interne d’Anthropic. Cette approche explore comment des processus démocratiques pourraient influencer le développement de l’IA.

Constitutional Classifiers : la CAI appliquée à la défense anti-jailbreak

Les Constitutional Classifiers sont une extension directe de la CAI, appliquée non pas à l’entraînement du modèle mais à sa protection en production contre les jailbreaks.

Première génération (janvier 2025)

Le principe : une constitution définit les catégories de contenu autorisé et interdit (par exemple, les recettes de moutarde sont autorisées, les recettes de gaz moutarde ne le sont pas). Cette constitution est utilisée pour générer synthétiquement un large volume de prompts et de réponses couvrant toutes les catégories. Les données sont augmentées (traduction multilingue, variations de style, reformulations en format de jailbreak connu). Deux classifieurs (entrée et sortie) sont entraînés sur ces données synthétiques et filtrent le trafic en temps réel.

Résultats de la première génération :

Métrique	Sans classifieurs	Avec Constitutional Classifiers
Taux de succès des jailbreaks	86 %	4,4 %
Taux de sur-refus (refus de requêtes bénignes)	Baseline	+0,38 % (non statistiquement significatif)
Surcoût de calcul	Baseline	+23,7 %

Anthropic a lancé un défi public (bug bounty) en février 2025, invitant quiconque à tenter de jailbreaker un Claude 3.5 Sonnet protégé par les classifieurs. Récompense : 10 000 $ pour réussir les 8 niveaux, 20 000 $ pour un jailbreak universel. Un seul jailbreak universel a été trouvé pendant la période de test.

Deuxième génération : Constitutional Classifiers++ (2025-2026)

La première génération avait deux vulnérabilités identifiées par le red teaming approfondi :

Attaques par reconstruction : les informations nuisibles sont fragmentées en segments d’apparence bénigne (par exemple, dispersées dans des fonctions d’un code source), puis le modèle est invité à les rassembler. Chaque segment passe le filtre individuellement.

Attaques par obfuscation de sortie : le modèle est invité à déguiser ses outputs (par exemple, remplacer les noms chimiques dangereux par des synonymes bénins).

La solution : les Constitutional Classifiers++ remplacent les deux classifieurs séparés (entrée et sortie) par un système en cascade :

Premier étage : sonde d’activations. Une sonde légère lit les activations internes de Claude (les signaux neuronaux intermédiaires) pour filtrer tout le trafic à très bas coût. C’est une application directe de la recherche en interprétabilité d’Anthropic. Environ 5,5 % du trafic est escaladé vers le deuxième étage.

Deuxième étage : classifieur d’échange. Un classifieur plus puissant évalue l’échange complet (prompt + réponse en contexte), détectant les tentatives d’obfuscation qui exploitaient la séparation entrée/sortie de la première génération.

Résultats des Constitutional Classifiers++ :

Métrique	V1	V2 (Classifiers++)
Surcoût de calcul	+23,7 %	~+1 %
Réduction des sur-refus	Baseline	-87 % vs V1
Vulnérabilités à haut risque	1 jailbreak universel trouvé	1 vulnérabilité (0,005 par 1 000 requêtes), aucun jailbreak universel
Effort de red teaming	N/A	1 736 heures cumulées, ~198 000 tentatives

L’interprétabilité en pratique Les Constitutional Classifiers++ sont la première application de production de la recherche en interprétabilité d’Anthropic. La sonde de premier étage utilise directement les activations internes du modèle, démontrant que la compréhension des représentations internes n’est pas seulement un objectif de recherche fondamentale mais a des applications pratiques immédiates pour la sécurité.

Constitutional AI vs. RLHF : comparaison directe

Critère	RLHF	Constitutional AI
Source du feedback	Annotateurs humains (comparaisons par paires)	IA guidée par des principes écrits (constitution)
Valeurs	Implicites (apprises des préférences des annotateurs)	Explicites (écrites dans un document public)
Transparence	Faible : les valeurs encodées sont opaques	Élevée : la constitution est publique et auditable
Cohérence	Variable (dépend des annotateurs, qui divergent)	Élevée (les principes sont fixes et appliqués uniformément)
Scalabilité	Limitée par le nombre d’annotateurs	Haute (la supervision IA scale avec le compute)
Exposition des travailleurs	Les annotateurs voient du contenu nuisible	Pas besoin d’exposer des humains au contenu problématique
Ajustabilité	Nécessite de refaire les annotations	Modifier la constitution et ré-entraîner
Limite partagée	Les deux dépendent de la qualité de la spécification (humaine pour RLHF, principes pour CAI)

En pratique, Claude utilise les deux : la CAI pour l’inoffensivité et les valeurs fondamentales, le RLHF pour l’utilité et les préférences utilisateur. Les deux techniques sont complémentaires.

Impact sur l’industrie et la régulation

Adoption industrielle

La CAI est devenue un modèle de référence pour l’industrie. Google DeepMind, Meta et d’autres labs ont développé des approches similaires (principes explicites guidant l’entraînement). La publication de la constitution sous CC0 facilite l’adoption : n’importe quelle entreprise peut utiliser les principes d’Anthropic comme point de départ pour ses propres systèmes.

La structure de la constitution 2026 (hiérarchie sécurité > éthique > conformité > utilité, distinction hardcodé/softcodé) s’aligne naturellement avec les exigences de l’EU AI Act : la supervision humaine correspond aux exigences pour les systèmes à haut risque, le comportement éthique aux protections des droits fondamentaux, la documentation de conformité aux exigences de transparence.

Confiance entreprise

Pour les clients entreprises dans les secteurs réglementés (santé, finance, gouvernement), la CAI réduit le risque d’adoption. Les valeurs du modèle sont documentées, auditables et ajustables. C’est un avantage concurrentiel pour Anthropic face à des systèmes dont les valeurs sont implicites et opaques. Anthropic a signé le Code de Pratique pour les GPAI de l’UE en juillet 2025, ce qui donne une présomption de conformité.

Limites de la Constitutional AI

La qualité des principes est le goulot d’étranglement. La CAI résout le problème de scalabilité de l’annotation humaine, mais introduit un problème de spécification des principes. Écrire de bons principes est en soi un problème d’alignement. Qui choisit les principes ? Comment gérer les valeurs contradictoires entre cultures ? L’expérience de Collective Constitutional AI est une piste, mais pas une solution définitive.

Facilité de déploiement = risque de déploiement insuffisamment testé. En réduisant le besoin de feedback humain, la CAI rend plus facile l’entraînement et le déploiement de systèmes qui n’ont pas été suffisamment observés par des humains. Anthropic le reconnaît dans le paper original.

Les modèles sont meilleurs en révision qu’en génération initiale. L’étape de critique-révision repose sur la capacité du modèle à identifier ses propres erreurs. Si le modèle a un angle mort (un biais qu’il ne reconnaît pas), la critique ne le corrigera pas. C’est pourquoi l’interprétabilité mécanistique est complémentaire : elle permet de vérifier les représentations internes plutôt que de se fier à l’auto-évaluation.

Le reward hacking reste possible. Le modèle de préférence entraîné sur le feedback IA peut lui aussi être exploité. Un modèle suffisamment capable pourrait apprendre à produire des réponses qui satisfont le classifieur constitutionnel sans réellement respecter l’esprit des principes.

Verdict

La Constitutional AI est la contribution technique la plus influente d’Anthropic à l’AI Safety. Elle résout des problèmes réels du RLHF (incohérence, scalabilité, exposition des annotateurs, opacité des valeurs) et produit des modèles qui sont simultanément plus utiles et plus sûrs. La publication de la constitution sous CC0 et l’évolution vers un document de 23 000 mots basé sur le raisonnement plutôt que les règles montrent une maturité croissante de l’approche.

Les Constitutional Classifiers et Classifiers++ démontrent que la CAI n’est pas qu’une technique d’entraînement : c’est un paradigme qui s’étend à la protection en production, avec des résultats concrets (95 % des jailbreaks bloqués, coût réduit à ~1 % de surcharge dans la version ++). L’application pratique de la recherche en interprétabilité dans les Classifiers++ est particulièrement significative : elle prouve que comprendre l’intérieur des modèles a une valeur opérationnelle directe.

Pour les développeurs utilisant Claude ou construisant leurs propres systèmes : la constitution d’Anthropic est un excellent point de départ pour définir les valeurs de vos systèmes. Lisez-la (elle est publique et sous CC0), adaptez-la à votre contexte, et utilisez les principes pour guider vos propres processus d’évaluation. Pour les entreprises : la CAI rend les valeurs du modèle auditables, ce qui facilite la conformité réglementaire et la gestion des risques.

Questions fréquentes sur la Constitutional AI

Où puis-je lire la constitution de Claude ?

La constitution 2026 est publiée directement sur le site d’Anthropic (anthropic.com/news/claudes-constitution) sous licence Creative Commons CC0 (domaine public). Elle fait environ 23 000 mots et explique le raisonnement derrière chaque principe. Les versions précédentes (2022, 2023) sont également accessibles. Le paper académique original « Constitutional AI: Harmlessness from AI Feedback » est disponible sur arXiv et le dépôt GitHub associé contient des exemples de prompts et de principes utilisés.

La Constitutional AI remplace-t-elle complètement le RLHF ?

Non. La CAI remplace le feedback humain pour la dimension « inoffensivité » (harmlessness) : le modèle n’a besoin d’aucune annotation humaine pour apprendre à être inoffensif. Mais le feedback humain reste utilisé pour la dimension « utilité » (helpfulness), car les préférences des utilisateurs sur ce qui est utile sont mieux capturées par le RLHF. En pratique, Claude utilise une combinaison des deux techniques. D’autres labs ont adopté des approches similaires : la plupart des LLM frontières combinent des principes explicites avec du feedback humain.

Quelle est la différence entre Constitutional AI et Constitutional Classifiers ?

La Constitutional AI est une technique d’entraînement : elle modifie les poids du modèle pendant le fine-tuning pour qu’il soit intrinsèquement plus aligné. Les Constitutional Classifiers sont des garde-fous de production : des classifieurs séparés (entraînés avec une méthodologie similaire utilisant une constitution) qui filtrent les entrées et sorties du modèle en temps réel. Les deux utilisent une constitution, mais à des fins différentes : l’une modifie le modèle, l’autre le surveille. En pratique, Claude utilise les deux : il est entraîné avec la CAI et protégé en production par les Constitutional Classifiers.

Comment les principes de la constitution sont-ils choisis ?

La constitution originale a été rédigée par les chercheurs d’Anthropic, s’inspirant de sources comme la Déclaration universelle des droits de l’homme. La version 2026 a été écrite principalement par la philosophe Amanda Askell avec des contributions de Joe Carlsmith, Chris Olah, Jared Kaplan et Holden Karnofsky. Anthropic reconnaît que cette approche donne un pouvoir disproportionné aux développeurs dans la sélection des valeurs. L’expérience de Collective Constitutional AI explore une alternative démocratique, mais reste expérimentale. La question « qui choisit les principes ? » est fondamentalement un problème philosophique et politique, pas seulement technique.

La Constitutional AI peut-elle être utilisée par d’autres que Anthropic ?

Oui. Le paper académique est publié, la méthodologie est documentée, et la constitution 2026 est sous licence CC0 (domaine public). N’importe qui peut implémenter la CAI. En pratique, cela nécessite un modèle de base suffisamment capable pour effectuer la critique et la révision de manière pertinente (les résultats du paper suggèrent que les modèles au-delà de 52 milliards de paramètres deviennent compétitifs avec les modèles de préférence entraînés sur du feedback humain). Les outils open-source de la communauté alignment (comme ceux du dépôt GitHub d’Anthropic) fournissent un point de départ. La technique est déjà influente : plusieurs labs ont adopté des approches similaires dans leurs pipelines d’entraînement.