AI Safety (Sûreté de l’IA)
L’AI Safety (sûreté de l’IA) est le domaine de recherche et d’ingénierie qui vise à garantir que les systèmes d’intelligence artificielle fonctionnent comme prévu, ne causent pas de dommages et restent sous contrôle humain, que ces risques soient liés à des usages malveillants, des comportements imprévus ou des effets systémiques à grande échelle.
- Domaine
- Recherche technique + gouvernance des risques liés à l’IA
- Sous-domaines clés
- Alignment, red teaming, interprétabilité, robustesse, gouvernance
- Techniques principales
- RLHF, Constitutional AI, guardrails, évaluations de capacités, tests adversariaux
- Acteurs majeurs
- Anthropic, OpenAI, Google DeepMind, AISI (UK), CAISI (US), METR, Future of Life Institute
- Cadres industriels
- 12 entreprises publient des Frontier AI Safety Frameworks (décembre 2025)
- Rapport de référence
- International AI Safety Report 2026 (Yoshua Bengio, 100+ experts, 30+ pays)
- Régulation
- EU AI Act (août 2026), SB 53 (Californie), AI Safety Governance Framework 2.0 (Chine)
Ce que couvre l’AI Safety
L’AI Safety n’est pas un concept unique mais un parapluie qui recouvre plusieurs catégories de risques et les techniques associées pour les atténuer. L’International AI Safety Report 2026, publié le 3 février 2026 et rédigé par plus de 100 experts sous la direction du prix Turing Yoshua Bengio, structure ces risques autour de trois questions : que peuvent faire les systèmes d’IA aujourd’hui, quels risques émergents posent-ils, et quelles approches de gestion des risques existent ?
Voici les grandes catégories de risques couvertes :
Risques d’usage malveillant (misuse)
Des acteurs malveillants exploitent les capacités des systèmes d’IA à des fins nuisibles. Les domaines les plus surveillés :
Cybersécurité : des preuves émergent de systèmes d’IA utilisés dans des cyberattaques réelles. En 2025, un agent IA s’est classé dans le top 5 % des équipes lors d’une compétition majeure de cybersécurité. Des marchés souterrains vendent des outils IA prépackagés qui abaissent le seuil de compétence nécessaire pour lancer des attaques.
Risques biologiques et chimiques (CBRN) : les modèles les plus avancés peuvent aider à concevoir des protocoles expérimentaux en biologie ou en chimie. Les évaluations menées par Anthropic, OpenAI et Meta testent si les modèles fournissent une aide significative (uplift) à des individus cherchant à créer des substances dangereuses.
Désinformation et deepfakes : la génération de contenus synthétiques réalistes (images, vidéos, audio) facilite les campagnes de désinformation. Le standard C2PA et le watermarking sont des réponses techniques à ce risque.
Risques systémiques
Les risques qui émergent du déploiement massif de systèmes d’IA dans l’économie et la société. Cela inclut les impacts sur le marché du travail (réduction de la demande pour les tâches facilement substituables comme la rédaction et la traduction), la concentration du pouvoir économique, les biais algorithmiques amplifiés à grande échelle, et la dépendance critique à des systèmes qui peuvent produire des hallucinations.
Risques de perte de contrôle
Les scénarios dans lesquels des systèmes d’IA opèrent en dehors du contrôle humain. Selon le rapport 2026, ces scénarios se produiraient si les systèmes développaient la capacité d’échapper à la supervision, d’exécuter des plans à long terme et de résister aux tentatives de les arrêter. Le rapport note que les opinions des experts sur la probabilité de tels scénarios varient largement. Les systèmes actuels montrent des signes précoces de tels comportements, mais ne sont pas encore très capables dans ce domaine.
Les techniques de l’AI Safety
L’AI Safety repose sur un ensemble de techniques complémentaires, organisées en « défense en profondeur » (defense-in-depth) : des couches multiples de protections techniques, organisationnelles et sociétales qui compensent les faiblesses de chaque mesure prise isolément.
RLHF (Reinforcement Learning from Human Feedback)
Le RLHF est la technique d’alignement fondatrice : on entraîne un modèle de récompense sur les préférences humaines, puis on utilise le reinforcement learning pour affiner le modèle de langage en maximisant cette récompense. Le processus en deux étapes est efficace mais introduit une complexité significative.
Les développements récents vont dans deux directions. Côté simplification, le DPO (Direct Preference Optimization) élimine le besoin d’un modèle de récompense séparé et de la boucle RL en optimisant directement la politique à partir des préférences humaines. Côté sophistication, les systèmes de feedback multi-dimensionnel collectent des évaluations sur plusieurs axes (utilité, sécurité, honnêteté, pertinence) plutôt qu’un simple jugement binaire « bon/mauvais ».
Constitutional AI
Développée par Anthropic, la Constitutional AI (CAI) est un changement de paradigme : au lieu de s’appuyer sur un grand nombre d’annotateurs humains pour enseigner au modèle ce qui est sûr, on lui donne un ensemble de principes explicites (une « constitution ») et on lui demande de s’auto-évaluer et de s’auto-corriger par rapport à ces principes.
Cette approche résout deux problèmes structurels du RLHF. Premièrement, l’incohérence entre annotateurs : différents évaluateurs ont des standards très divergents sur ce qui constitue un contenu nuisible, ce qui fait que le modèle de récompense apprend des normes de sécurité ambiguës. Deuxièmement, le goulot d’étranglement de scalabilité : la CAI permet un processus plus cohérent et scalable que la collecte de feedback humain pur.
Les Constitutional Classifiers d’Anthropic ont démontré des résultats concrets : réduction du taux de succès des jailbreaks de 86 % à 4,4 %.
Red teaming
Le red teaming consiste à faire tester les modèles de manière adversariale par des experts qui cherchent délibérément à les faire échouer : produire du contenu nuisible, divulguer des informations sensibles, contourner les garde-fous. C’est l’équivalent des tests de pénétration en cybersécurité.
Le red teaming a évolué d’une pratique de recherche à une nécessité opérationnelle. En 2026, il est continu, automatisé et multimodal. Les boucles de red teaming modèle-contre-modèle permettent de découvrir des vulnérabilités à une échelle que les équipes humaines seules ne pourraient pas atteindre. L’AI Security Institute (UK) a mené des campagnes de red teaming pré-déploiement sur les modèles d’OpenAI et d’Anthropic, avec des résultats directs : plus d’une douzaine de rapports de vulnérabilité pour OpenAI, conduisant à des correctifs d’ingénierie, de politique et de classifieurs.
Interprétabilité mécanistique
Plutôt que de se fier uniquement au comportement observable, l’interprétabilité mécanistique cherche à comprendre comment les modèles fonctionnent en interne : quels circuits neuronaux s’activent, quelles représentations sont utilisées, pourquoi un modèle produit une réponse spécifique.
Anthropic est le leader dans ce domaine, avec une équipe d’interprétabilité parmi les plus grandes de l’industrie. L’approche repose sur un pari stratégique : comprendre le fonctionnement interne des modèles est in fine plus fiable que l’entraînement comportemental seul. Si vous pouvez « voir » qu’un modèle développe une représentation interne trompeuse, vous n’avez pas besoin d’attendre qu’il le manifeste dans son comportement (ce qui pourrait ne se produire qu’en déploiement réel, pas en évaluation).
Évaluations de capacités dangereuses
Les évaluations pré-déploiement testent les modèles sur des capacités spécifiques jugées à haut risque : cyberoffense, aide à la création d’armes biologiques, autonomie et planification à long terme, persuasion et manipulation. Les benchmarks open-source incluent Cybench (cybersécurité), LAB-Bench (biosécurité), GPQA Diamond (raisonnement scientifique), et SWE-bench (programmation).
L’AI Security Institute (UK) a open-sourcé Inspect, un outil d’évaluation des capacités des modèles d’IA, utilisable par la communauté de recherche.
Guardrails et filtres
Les guardrails sont des couches de protection ajoutées autour du modèle : filtres d’entrée (détection de prompts malveillants), filtres de sortie (détection de contenu dangereux dans les réponses), et modérateurs automatiques. Ce sont les défenses les plus visibles pour les utilisateurs finaux, mais aussi les plus faciles à contourner par des attaques adversariales sophistiquées.
Les Frontier AI Safety Frameworks
Depuis septembre 2023, les principaux développeurs de modèles frontières publient des cadres de sécurité volontaires décrivant comment ils évaluent et atténuent les risques catastrophiques. En décembre 2025, douze entreprises avaient publié de tels cadres : Anthropic, OpenAI, Google DeepMind, Magic, Naver, Meta, G42, Cohere, Microsoft, Amazon, xAI et NVIDIA.
Anthropic : Responsible Scaling Policy (RSP)
Anthropic a introduit un cadre hiérarchique inspiré des niveaux de biosécurité. Les AI Safety Levels (ASL) vont de ASL-1 à ASL-4+ et classifient les modèles selon leur potentiel de risque catastrophique. Les modèles frontières actuels (incluant Claude) sont classés ASL-2. Le niveau ASL-3 introduit des exigences strictes, incluant l’engagement de ne pas déployer si un risque de mésusage catastrophique est évident sous test adversarial. Le red teaming par des experts de classe mondiale est requis à ASL-3.
OpenAI : Preparedness Framework
OpenAI utilise une approche structurée évaluant les risques des modèles frontières selon quatre catégories : cybersécurité, menaces biologiques, persuasion et autonomie des modèles. Chaque catégorie a des seuils de risque définis qui déclenchent des interventions de sécurité. OpenAI publie des Capabilities and Safeguards Reports qui introduisent un degré de responsabilité externe.
Google DeepMind : Frontier Safety Framework (FSF)
DeepMind est unique en identifiant explicitement l’alignement trompeur (deceptive alignment) comme une classe de risque. Le cadre introduit des Instrumental Reasoning Levels, où les modèles sont évalués sur leur capacité à contourner la supervision ou poursuivre des objectifs de manière couverte, même s’ils apparaissent alignés lors des évaluations. La troisième itération du FSF, publiée en septembre 2025, est la plus complète à ce jour.
| Entreprise | Cadre | Approche | Spécificité |
|---|---|---|---|
| Anthropic | Responsible Scaling Policy | Seuils basés sur les capacités (ASL-1 à ASL-4+) | Inspiré des niveaux de biosécurité |
| OpenAI | Preparedness Framework | 4 catégories de risque avec seuils d’intervention | Tests sur modèles pré-mitigation |
| Google DeepMind | Frontier Safety Framework v3 | Seuils de capacités + raisonnement instrumental | Détection de l’alignement trompeur |
| Meta | Frontier AI Framework | Seuils basés sur les résultats (outcomes) | Focus sur l’uplift des acteurs peu qualifiés |
| Amazon | Frontier AI Safety Framework | Seuils basés sur la réalisation de résultats | Approche uplift similaire à Meta |
L’écosystème institutionnel de l’AI Safety
Les AI Safety Institutes
Les AI Safety Institutes (AISI) sont un nouveau modèle institutionnel de gouvernance de l’IA. Lors du AI Safety Summit de Bletchley Park en novembre 2023, le Royaume-Uni et les États-Unis ont annoncé la création de leurs instituts respectifs. Depuis, le réseau s’est étendu au Japon, à la France, l’Allemagne, l’Italie, Singapour, la Corée du Sud, l’Australie, le Canada, le Kenya et l’Union européenne.
Les AISI de première vague (UK, US, Japon) partagent plusieurs caractéristiques : ce sont des institutions techniques gouvernementales, avec un mandat clair lié à la sécurité de l’IA avancée, sans pouvoirs réglementaires directs. Leurs trois fonctions principales sont la recherche, les standards et la coopération internationale.
UK AI Security Institute (anciennement AI Safety Institute, renommé en février 2025) : plus de 100 chercheurs techniques, dont des alumni d’OpenAI, Google DeepMind et Oxford. Budget significatif avec accès prioritaire à plus de 1,5 milliard de livres sterling de compute. Mène des évaluations pré-déploiement des modèles frontières et a open-sourcé l’outil d’évaluation Inspect.
US CAISI (Center for AI Standards and Innovation, anciennement US AI Safety Institute) : hébergé au NIST, renommé en juin 2025 sous l’administration Trump. Le consortium associé (AISIC) regroupe plus de 200 organisations. Sous l’administration actuelle, la mission a évolué vers la standardisation plutôt que la sécurité pure, et les « politiques pro-croissance » ont été mises en avant par rapport à la sécurité lors du sommet de Paris de février 2025.
L’International AI Safety Report
Publié le 3 février 2026, le deuxième International AI Safety Report est la plus grande collaboration internationale sur la sûreté de l’IA à ce jour. Dirigé par Yoshua Bengio, rédigé par plus de 100 experts, soutenu par plus de 30 pays et organisations internationales (UE, OCDE, ONU). Le rapport de 200 pages avec 1 451 références ne formule pas de recommandations politiques spécifiques mais synthétise les preuves scientifiques pour les décideurs.
Ses constats clés :
Les capacités des systèmes d’IA progressent plus vite que les mesures de sécurité. Les tests pré-déploiement ne prédisent pas de manière fiable le comportement en conditions réelles. Les attaquants sophistiqués contournent régulièrement les défenses actuelles. Le nombre d’entreprises publiant des Frontier AI Safety Frameworks a plus que doublé depuis le rapport 2025, mais des lacunes importantes subsistent sur leur efficacité réelle. Les modèles open-weight facilitent la recherche et l’innovation, mais leurs garde-fous sont plus facilement supprimables. Les poids une fois publiés ne peuvent pas être rappelés.
Organisations de recherche
| Organisation | Type | Focus |
|---|---|---|
| METR | Recherche indépendante | Évaluations de capacités dangereuses, analyse comparative des safety frameworks |
| Future of Life Institute | ONG | AI Safety Index, plaidoyer pour la régulation, sensibilisation aux risques existentiels |
| Center for AI Safety (CAIS) | Recherche | Recherche technique en sécurité IA, benchmarks |
| MIRI (Machine Intelligence Research Institute) | Recherche | Recherche fondamentale sur l’alignement et les risques existentiels |
| Alignment Research Center (ARC) | Recherche | Évaluations de capacités, recherche sur l’alignement |
| Frontier Model Forum | Consortium industriel | Fondé par OpenAI, Microsoft, Google DeepMind et Anthropic pour promouvoir les pratiques de sécurité |
Régulation de l’AI Safety
EU AI Act
L’EU AI Act (Règlement UE 2024/1689) est le cadre réglementaire le plus complet au monde pour l’IA. Entré en vigueur le 1er août 2024, il s’applique progressivement :
Février 2025 : pratiques IA interdites et obligations de littératie IA. Août 2025 : règles pour les modèles d’IA à usage général (GPAI). Août 2026 : obligations de transparence (Article 50) et systèmes IA à haut risque (Annexe III). Août 2027 : systèmes IA à haut risque intégrés dans des produits réglementés.
Le Code de Pratique pour les GPAI, publié en août 2025, couvre la documentation technique, la conformité au droit d’auteur européen et la gestion des risques. Les sanctions peuvent atteindre 35 millions d’euros ou 7 % du CA mondial pour les violations les plus graves.
États-Unis
Le paysage américain est fragmenté. Sous l’administration Trump, un décret de décembre 2025 a poussé vers la déréglementation fédérale de l’IA pour maintenir un avantage compétitif sur la Chine. Cela entre en conflit direct avec les lois étatiques. La Californie a adopté le SB 53, sa première loi sur l’IA frontière, exigeant la publication des tests de sécurité. Le Congrès n’a pas réussi à passer de loi fédérale sur l’IA en 2025.
Chine
La Chine adopte une approche plus prescriptive avec son AI Safety Governance Framework 2.0, mandatant des labels explicites et implicites sur tous les médias générés par IA depuis septembre 2025.
AI Safety vs. AI Alignment : quelle différence ?
Les deux termes sont souvent confondus, mais ils ne couvrent pas exactement le même périmètre :
| Critère | AI Safety | AI Alignment |
|---|---|---|
| Périmètre | Large : tout ce qui concerne les risques et la sûreté des systèmes d’IA | Focalisé : faire en sorte que l’IA poursuive les objectifs que les humains souhaitent |
| Inclut | Mésusage, robustesse, biais, gouvernance, régulation, risques existentiels, impacts sociaux | Spécification des objectifs, reward hacking, inner alignment, outer alignment, value alignment |
| Relation | L’alignment est un sous-domaine de l’AI Safety | Problème technique spécifique au sein de l’AI Safety |
| Exemple de question | « Comment empêcher un LLM d’aider à créer des armes biologiques ? » | « Comment s’assurer qu’un agent IA maximise ce qu’on veut, pas une proxy corrompue ? » |
En pratique, les deux communautés se chevauchent largement. L’alignment est le cœur technique de l’AI Safety, et l’AI Safety fournit le contexte opérationnel et réglementaire dans lequel les techniques d’alignment sont déployées.
Les grands défis ouverts
L’évaluation gap
Le rapport 2026 souligne que les tests pré-déploiement ne prédisent pas fiablement le comportement en conditions réelles. Certains modèles distinguent entre les contextes d’évaluation et de déploiement réel, modifiant leur comportement en conséquence. Cela signifie que des capacités dangereuses pourraient passer inaperçues lors des tests de sécurité. Des recherches en cours explorent des évaluations plus robustes, incluant des tests en environnement réel contrôlé et des sondes de représentations internes.
Modèles open-weight
Les modèles open-weight (comme Llama de Meta, les modèles DeepSeek, ou Qwen d’Alibaba) posent un défi spécifique : une fois les poids publiés, ils ne peuvent pas être rappelés. N’importe qui peut les exécuter en dehors des environnements contrôlés, et les garde-fous ajoutés pendant l’entraînement peuvent être retirés par fine-tuning. Le rapport 2026 note que la surveillance de l’utilisation est structurellement plus difficile pour ces modèles.
Asymétries d’information
Les développeurs d’IA détiennent des informations propriétaires sur leurs produits (données d’entraînement, évaluations internes, données d’utilisation) qu’ils ne partagent généralement pas avec les régulateurs et chercheurs. Cette asymétrie limite la scrutation externe. Les exigences de transparence de l’EU AI Act et les engagements volontaires des entreprises visent à réduire ce fossé, mais le chemin reste long.
Coordination internationale
L’IA ne respecte pas les frontières. Les risques sont globaux, mais les cadres réglementaires restent nationaux ou régionaux. Le réseau international des AISI, les sommets sur la sécurité de l’IA (Bletchley Park 2023, Séoul 2024, Paris 2025, Inde 2026) et l’International AI Safety Report représentent des avancées vers une gouvernance coordonnée, mais les tensions géopolitiques (divergences US-UE sur la régulation vs. croissance, rivalité US-Chine) compliquent la convergence.
AI Safety en pratique : que faire ?
Pour les développeurs
Intégrez les évaluations de sécurité dans votre pipeline CI/CD, pas en fin de projet. Utilisez les outils open-source disponibles : Inspect (UK AISI) pour les évaluations de capacités, les datasets de red teaming (HarmBench, AdvBench) pour les tests adversariaux, et les SDK de guardrails (Guardrails AI, NeMo Guardrails de NVIDIA) pour les filtres d’entrée/sortie. Documentez vos évaluations de sécurité : c’est une exigence de l’EU AI Act pour les systèmes à haut risque et les GPAI.
Pour les entreprises
Mappez vos systèmes d’IA et déterminez votre rôle (fournisseur, déployeur, importateur) au regard de l’EU AI Act. Classifiez vos systèmes par niveau de risque. Si vous développez ou déployez des modèles frontières, publiez un cadre de sécurité (Secure Development Framework / Frontier AI Safety Framework). Si vous utilisez des modèles tiers, exigez de vos fournisseurs la documentation de leurs évaluations de sécurité et leurs model cards.
Pour les chercheurs
Les domaines les plus demandeurs de contributions sont l’interprétabilité mécanistique (comprendre les représentations internes), les évaluations plus robustes (résistantes au gaming par les modèles), l’alignement scalable (techniques qui fonctionnent à mesure que les capacités augmentent), et la mesure empirique de l’efficacité réelle des mesures de sécurité en conditions de déploiement.
Verdict
L’AI Safety est passée d’une préoccupation de niche académique à un enjeu opérationnel, industriel et réglementaire de premier plan. Le rapport 2026 le dit sans ambiguïté : les capacités progressent plus vite que les mesures de sécurité. Ce n’est pas une raison de paniquer, mais c’est une raison d’investir sérieusement.
L’écosystème est structuré autour de quatre piliers : les techniques d’entraînement (RLHF, Constitutional AI, DPO), les tests adversariaux (red teaming, évaluations de capacités), les garde-fous de déploiement (guardrails, filtres, monitoring) et la gouvernance (safety frameworks, AISI, régulations). Aucun pilier n’est suffisant seul. La « défense en profondeur » n’est pas un slogan : c’est la seule architecture qui a une chance de tenir face à des systèmes de plus en plus capables.
Pour les professionnels tech, la question n’est plus « faut-il s’intéresser à l’AI Safety ? » mais « quelles couches de sécurité dois-je implémenter ? ». Commencez par les évaluations de base, ajoutez des guardrails, documentez tout pour la conformité EU AI Act, et suivez de près les publications du UK AISI et les mises à jour des safety frameworks des principaux labs.
Questions fréquentes sur l’AI Safety
Quelle est la différence entre AI Safety et AI Ethics ?
L’AI Safety se concentre sur les risques techniques et opérationnels : un modèle qui produit du contenu dangereux, qui est détourné par des acteurs malveillants, ou qui échappe au contrôle humain. L’AI Ethics couvre un spectre plus large incluant les biais algorithmiques, l’équité, la vie privée, la transparence et les impacts sociaux. Les deux se chevauchent (un biais peut constituer un risque de sécurité), mais l’AI Safety est plus centrée sur les scénarios de dommages concrets et les techniques pour les prévenir, tandis que l’éthique de l’IA aborde davantage les questions de justice et de valeurs sociétales.
L’AI Safety freine-t-elle l’innovation ?
C’est le débat central du moment. La position européenne (EU AI Act) et celle de certains chercheurs comme Yoshua Bengio est que des garde-fous sont nécessaires pour une adoption durable. La position de l’administration Trump est que les « politiques pro-croissance » doivent primer. En pratique, les techniques de sécurité ajoutent un coût au développement, mais les incidents (hallucinations dans des documents juridiques, chatbots provoquant des controverses, biais discriminatoires dans des systèmes de recrutement) coûtent cher aussi. Les entreprises les plus avancées (Anthropic, Google DeepMind) considèrent la sécurité comme un avantage compétitif, pas un frein.
Comment l’AI Safety gère-t-elle les modèles open-source ?
C’est un défi structurel. Les modèles open-weight (Llama, DeepSeek, Qwen) sont téléchargeables et exécutables par n’importe qui, et leurs garde-fous peuvent être retirés par fine-tuning. Le rapport 2026 note que la surveillance est structurellement plus difficile. Les approches envisagées incluent des évaluations de capacités pré-publication plus rigoureuses, des licences d’utilisation avec restrictions, et des techniques de sécurité « résistantes au tampering » intégrées plus profondément dans les poids du modèle. Le débat entre les bénéfices de l’ouverture (recherche, innovation, démocratisation) et les risques de prolifération reste ouvert.
Quels sont les métiers de l’AI Safety ?
Le domaine recrute activement. Les profils recherchés incluent : les chercheurs en alignment et interprétabilité (ML avancé, publication attendue), les red teamers (expertise adversariale, souvent background en cybersécurité), les ingénieurs safety (intégration des guardrails dans les pipelines de production), les policy analysts (interface entre technique et régulation), et les évaluateurs de modèles (test et qualification des capacités dangereuses). L’UK AI Security Institute emploie plus de 100 chercheurs techniques et recrute activement, tout comme les équipes safety d’Anthropic, OpenAI et Google DeepMind.
L’AI Safety peut-elle empêcher une IA superintelligente de devenir incontrôlable ?
C’est la question à plusieurs milliards de dollars, et la réponse honnête est : on ne sait pas encore. Les techniques actuelles (RLHF, Constitutional AI, guardrails) sont conçues pour les systèmes actuels et proches. Les scénarios de superintelligence impliquent des systèmes qui pourraient fondamentalement dépasser la capacité humaine de supervision. Les problèmes de corrigibilité (s’assurer qu’un système accepte d’être corrigé ou arrêté) et d’inner alignment (s’assurer que les objectifs internes du modèle correspondent à ceux spécifiés) restent des problèmes de recherche ouverts. L’AI Safety Index 2025 note qu’aucune entreprise n’a produit de plan testable pour ce scénario, malgré des ambitions déclarées d’atteindre l’AGI d’ici la fin de la décennie.