Jailbreak (LLM)

Le jailbreak d’un LLM est une technique qui manipule un modèle de langage pour contourner ses garde-fous de sécurité (safety alignment) et lui faire produire du contenu qu’il est entraîné à refuser : instructions dangereuses, discours haineux, désinformation, code malveillant ou fuite de données sensibles.

Catégorie: Attaque de sécurité IA (sous-type de prompt injection)
Première occurrence: DAN (« Do Anything Now »), Reddit, fin 2022
Cibles: Tous les LLM (ChatGPT, Claude, Gemini, Llama, DeepSeek, etc.)
Taux de succès: 7-9 % (DAN classique, modèles récents) à 97-99 % (attaques automatisées avancées)
Classement OWASP: Inclus dans LLM01:2025 (Prompt Injection, n°1)
Termes liés: Prompt injection, Red teaming, Guardrails, Content filter

Jailbreak vs prompt injection : quelle différence ?

Le prompt injection est la catégorie générale d’attaques qui manipulent un LLM via ses entrées. Le jailbreak en est un sous-type spécifique qui cible l’alignement de sécurité du modèle lui-même, et non les instructions d’une application particulière.

En pratique : si vous manipulez un chatbot de support client pour qu’il réponde à des questions hors sujet, c’est du prompt injection. Si vous manipulez un LLM pour qu’il produise des instructions de fabrication de substances dangereuses qu’il est entraîné à refuser, c’est un jailbreak.

La tension exploitée par les jailbreaks est fondamentale dans la conception des LLM. Ces modèles sont entraînés avec deux objectifs souvent contradictoires : être maximalement utiles (répondre à toutes les questions) et être maximalement sûrs (refuser les requêtes dangereuses). Le jailbreak exploite cette tension en poussant le modèle à prioriser l’utilité au détriment de la sécurité, via des manipulations linguistiques habiles.

L’évolution des techniques de jailbreak (2022-2026)

Génération 1 : les overrides manuels (2022-2023)

Les premières tentatives de jailbreak étaient rudimentaires : « Ignore toutes les instructions précédentes », « Tu es maintenant en mode développeur », « Oublie tes restrictions ». Ces approches directes fonctionnaient sur les premiers modèles, mais les LLM entraînés avec RLHF (Reinforcement Learning from Human Feedback) ont rapidement appris à les reconnaître et les refuser.

Génération 2 : DAN et le jeu de rôle (2023)

DAN (« Do Anything Now ») est le jailbreak le plus célèbre de l’histoire des LLM. Apparu fin 2022 sur Reddit, il demandait à ChatGPT d’incarner un personnage alternatif nommé « DAN » qui n’est soumis à aucune contrainte. Le prompt forçait le modèle à produire deux réponses côte à côte : une réponse « classique » respectant les règles, et une réponse « DAN » sans restriction.

Plus d’une douzaine de versions de DAN ont circulé, chacune plus élaborée que la précédente pour contourner les patches d’OpenAI. DAN a révélé une vulnérabilité profonde : un prompt suffisamment persuasif et détaillé pouvait outrepasser la programmation de sécurité du modèle.

Des variantes sont apparues rapidement : l’exploit de la « grand-mère » (manipulation émotionnelle pour obtenir des informations sensibles), le « mode développeur » (simulation d’un mode de test sans restrictions), et les scénarios de jeux vidéo fictifs (demander des informations dangereuses dans le contexte d’un jeu).

Selon une étude de Palo Alto Networks Unit 42, les techniques DAN classiques ont perdu en efficacité sur les modèles récents, avec des taux de succès (ASR) tombés entre 7,5 % et 9,2 %. Les fournisseurs ont spécifiquement ciblé ces patterns dans leurs mises à jour d’alignement.

Génération 3 : techniques composites (2024)

Les attaquants ont évolué vers des approches combinant plusieurs techniques simultanément :

Changement de langue (language switching) : démarrer en anglais puis passer dans une langue moins bien couverte par les filtres de sécurité. Le modèle produit du contenu qu’il refuserait en anglais.

Encodage et obfuscation : utiliser l’encodage base64, le pig latin, les homoglyphes Unicode (caractères visuellement identiques mais différents en Unicode), ou les acrostiches (premières lettres de chaque mot formant une instruction cachée) pour contourner les filtres par mots-clés.

Many-shot attack : fournir de nombreux exemples de comportement interdit dans le prompt, normalisant progressivement ce comportement par démonstration statistique. Avec les fenêtres de contexte qui s’étendent au-delà de 100K tokens, ces attaques deviennent plus efficaces car les instructions de sécurité sont noyées dans le volume de texte.

Crescendo (multi-turn) : une série d’échanges individuellement anodins qui, progressivement, érodent les défenses du modèle. Chaque message est inoffensif isolément, mais la séquence mène le modèle vers un territoire interdit. Les études montrent que les approches multi-tours sont généralement plus efficaces que les approches single-turn pour les violations de sécurité.

Fake completion : fournir un début de réponse qui viole les règles, incitant le modèle à compléter dans la même direction par cohérence narrative.

Génération 4 : jailbreaks automatisés (2025-2026)

L’évolution la plus préoccupante est l’automatisation des jailbreaks. Les attaquants n’ont plus besoin de créer manuellement des prompts : des algorithmes le font pour eux.

AutoDAN : utilise un algorithme génétique hiérarchique pour générer automatiquement des prompts de jailbreak furtifs. Contrairement au DAN manuel, AutoDAN crée des prompts qui contournent les filtres sans déclencher de détection, en maintenant une cohérence sémantique apparente.

AutoDAN-Turbo : une évolution autonome qui apprend en continu. Les patterns d’attaque réussis sont intégrés dans une bibliothèque de stratégies, tandis que les échecs sont écartés ou modifiés. Le système découvre et fait évoluer des stratégies de jailbreak de plus en plus puissantes sans intervention humaine, en mode black-box (sans accès aux poids ou à l’architecture du modèle cible).

JBFuzz : un framework de fuzzing introduit en 2025 qui a atteint un taux de succès d’environ 99 % contre les principaux modèles, y compris GPT-4o, Gemini 2.0 et DeepSeek-V3.

LLM-Virus : utilise des algorithmes génétiques pour faire évoluer des prompts de jailbreak, simulant un processus de mutation biologique. Les prompts deviennent progressivement plus sophistiqués à chaque génération, atteignant des taux de succès très élevés tout en paraissant totalement inoffensifs.

Les chiffres sont alarmants Selon une étude publiée dans Nature Communications par Hagendorff et al., les attaques automatisées atteignent un taux de succès d’environ 97 % contre certains modèles cibles. Les attaques avancées atteignent couramment 90-99 % de succès sur les modèles open-weight, et 80-94 % sur les modèles propriétaires. Les attaques multi-tours par agents automatisés montrent un taux de succès de 95 % en décomposant les requêtes dangereuses en sous-questions inoffensives.

Taxonomie des techniques de jailbreak

Les chercheurs classent les jailbreaks selon plusieurs dimensions :

Niveau	Techniques	Principe
Token	Substitution de caractères, homoglyphes Unicode, padding tokens, spacing	Exploite le traitement des tokens individuels, avant la compréhension sémantique
Prompt (single-turn)	DAN, roleplay, manipulation émotionnelle, scénarios fictifs, fake completion, storytelling	Manipule l’interprétation du contexte dans un seul échange
Conversation (multi-turn)	Crescendo, décomposition en sous-questions, many-shot, érosion progressive	Exploite les séquences conversationnelles pour éroder graduellement les défenses
Encodage	Base64, pig latin, traduction, acrostiches, cipher	Contourne les filtres en obscurcissant le contenu malveillant
Automatisé	AutoDAN, AutoDAN-Turbo, JBFuzz, LLM-Virus, GCG (Greedy Coordinate Gradient)	Algorithmes qui génèrent et optimisent des jailbreaks sans intervention humaine
Multimodal	Instructions dans les images, métadonnées, audio	Exploite les interactions entre modalités dans les modèles multimodaux

La catégorisation de Rao et al. distingue deux grandes familles : les transformations basées sur des instructions (commandes directes, hacking cognitif, répétition d’instructions, évasion indirecte) et les transformations non basées sur des instructions (transformations syntaxiques, few-shot hacking, complétion de texte). En pratique, les attaques les plus efficaces combinent des éléments des deux familles.

Storytelling et roleplay : les techniques les plus efficaces en single-turn

Les études de Palo Alto Networks Unit 42 sur les produits GenAI grand public révèlent un résultat contre-intuitif : parmi les techniques single-turn (un seul échange), le storytelling et le roleplay restent les plus efficaces, devançant les techniques d’encodage ou d’override d’instructions.

Le storytelling fonctionne parce que les LLM sont entraînés à maintenir une cohérence narrative. Une fois que le modèle est engagé dans une histoire, il tend à produire du contenu cohérent avec le scénario, même si ce contenu violerait normalement ses garde-fous. C’est comme demander à un acteur de rester dans son personnage : une fois immergé dans le rôle, il agit naturellement de manière cohérente avec le personnage, même si les actions sont normalement interdites.

Le roleplay exploite le même mécanisme mais de manière plus directe : l’attaquant demande au modèle d’incarner un personnage spécifique (un hacker dans un jeu vidéo, un chimiste dans un roman policier, un expert en sécurité donnant une formation) et pose ses questions « dans le contexte du personnage ».

Ces techniques sont particulièrement difficiles à bloquer sans casser des cas d’usage légitimes. Les LLM sont censés pouvoir écrire de la fiction, jouer des rôles, et raconter des histoires. Distinguer un roleplay créatif légitime d’un jailbreak par roleplay est un problème ouvert.

Risques concrets

Le jailbreak n’est pas un problème académique. Ses conséquences dépendent du contexte de déploiement du LLM :

Génération de contenu dangereux : instructions pour des activités illégales ou dangereuses, code malveillant, désinformation ciblée. C’est le risque le plus visible et le plus médiatisé.

Fuite de données sensibles : dans les applications avec accès à des bases de données ou des documents internes, un jailbreak peut amener le modèle à exfiltrer des informations confidentielles.

Actions non autorisées : pour les agents IA avec accès à des outils, un jailbreak peut déclencher l’envoi d’emails, la modification de fichiers, l’exécution de code ou des transactions financières non autorisées.

Dommages physiques : dans les systèmes IA embarqués (robotique, systèmes industriels), un jailbreak peut théoriquement déclencher des actions physiques dangereuses. Des chercheurs ont démontré qu’un jailbreak via un PDF pouvait modifier des paramètres SCADA via un agent MCP.

Impact réputationnel : un chatbot d’entreprise jailbreaké qui produit du contenu offensant ou recommande des produits concurrents (comme dans l’incident Chevrolet de Watsonville) peut causer des dommages d’image significatifs.

Défenses contre le jailbreak

Les défenses sont organisées en plusieurs couches, de l’entraînement du modèle aux contrôles applicatifs.

Au niveau du modèle

RLHF et entraînement adversarial : les fournisseurs entraînent leurs modèles à reconnaître et refuser les patterns de jailbreak connus. L’entraînement adversarial (PAT, Prompt Adversarial Tuning) expose systématiquement le modèle à des exemples adversariaux pendant le fine-tuning, améliorant sa résistance sans modifier l’architecture.

Constitutional AI : l’approche d’Anthropic pour Claude, qui encode des principes éthiques directement dans le processus d’entraînement plutôt que de s’appuyer uniquement sur des filtres post-génération.

Safety tuning : un fine-tuning spécifique sur la sécurité et la non-nuisibilité, distinct du fine-tuning sur les performances.

Au niveau de l’application

Guardrails et shields : des modèles de classification dédiés (Microsoft Prompt Shields, NVIDIA NeMo Guardrails, Lakera Guard, W&B Weave Guardrails) qui analysent les inputs et outputs en temps réel pour bloquer les tentatives de jailbreak.

Filtres de contenu : analyse des sorties du LLM pour détecter le contenu dangereux avant qu’il ne soit transmis à l’utilisateur. Les filtres sémantiques sont plus efficaces que les filtres par mots-clés, mais aucun n’est infaillible.

Validation d’output déterministe : des règles non probabilistes qui bloquent certains patterns (URLs de tracking, balises script, formats d’exfiltration connus) indépendamment du jugement du LLM.

Moindre privilège pour les agents : limiter les outils et permissions accessibles à l’agent IA. Exiger des confirmations humaines pour les actions sensibles.

Test et red teaming

Red teaming automatisé : des outils comme Promptfoo, DeepTeam et le Gandalf Challenge de Lakera permettent de tester systématiquement la résistance d’une application aux jailbreaks. Le red teaming doit être continu, pas ponctuel : les techniques d’attaque évoluent plus vite que les défenses.

Benchmarks de sécurité : les frameworks OWASP LLM Top 10 et les suites de tests de sécurité (HarmBench, JailbreakBench) fournissent des référentiels standardisés pour évaluer la robustesse d’un modèle.

Recommandation pratique Ne vous fiez pas à une seule couche de défense. Combinez l’entraînement adversarial du modèle, les guardrails en temps réel, la validation d’output, et le red teaming régulier. Traitez le jailbreak comme un risque opérationnel continu, pas comme un bug à corriger une fois.

Aspect réglementaire

Le EU AI Act impose des obligations de robustesse et de sécurité pour les systèmes d’IA à haut risque. La résistance aux jailbreaks fait partie des exigences implicites de robustesse. Les organisations déployant des LLM dans l’Union européenne doivent pouvoir démontrer qu’elles ont pris des mesures raisonnables pour prévenir les détournements, incluant le test adversarial et la surveillance en production.

Aux États-Unis, le NIST AI Risk Management Framework recommande des tests adversariaux réguliers. Les réglementations sectorielles (HIPAA pour la santé, les régulations financières) imposent des contrôles supplémentaires quand des LLM traitent des données sensibles.

Verdict

Le jailbreak est une réalité persistante de l’IA générative. Malgré des milliards investis dans la sécurité des LLM depuis 2023, les attaques automatisées avancées atteignent des taux de succès proches de 99 % contre les modèles frontières. La course entre attaquants et défenseurs est asymétrique : chaque nouvelle défense couvre des techniques spécifiques, tandis que les attaquants combinent des méthodes dans des configurations inédites.

Pour les équipes qui déploient des LLM en production, la question n’est pas « est-ce que notre modèle peut être jailbreaké ? » (la réponse est oui), mais « quelles sont les conséquences d’un jailbreak réussi, et comment les atténuons-nous ? ». La défense en profondeur, le moindre privilège pour les agents, et le red teaming continu sont les trois piliers d’une posture de sécurité réaliste.

Questions fréquentes sur le jailbreak LLM

DAN fonctionne-t-il encore sur ChatGPT ?

Le DAN classique est largement neutralisé sur les modèles récents. Selon l’étude de Palo Alto Networks Unit 42, les taux de succès du DAN original sont tombés entre 7,5 % et 9,2 % sur les déploiements actuels. OpenAI et les autres fournisseurs ont spécifiquement ciblé ces patterns dans leurs mises à jour d’alignement. En revanche, des variantes sophistiquées (multi-turn, encodage, combinaisons de techniques) restent efficaces.

Les modèles open source sont-ils plus vulnérables aux jailbreaks ?

Oui, en général. Les études montrent des taux de succès de 90-99 % pour les attaques automatisées avancées sur les modèles open-weight, contre 80-94 % sur les modèles propriétaires. La raison est double : les modèles open source ont souvent un alignement de sécurité moins poussé, et les attaquants ont accès aux poids du modèle, ce qui permet des attaques white-box (utilisant les gradients) en plus des attaques black-box.

Le jailbreak est-il illégal ?

Ça dépend du contexte et de la juridiction. Le jailbreak en soi (modifier le comportement d’un LLM) n’est pas explicitement illégal dans la plupart des pays. En revanche, utiliser un jailbreak pour générer du contenu illégal (incitation à la violence, CSAM, instructions pour des actes terroristes) est illégal indépendamment de la méthode utilisée. Le EU AI Act impose des obligations aux déployeurs de systèmes IA, ce qui peut inclure la responsabilité en cas de jailbreak ayant des conséquences néfastes.

Comment tester la résistance de mon application aux jailbreaks ?

Utilisez des outils de red teaming automatisé comme Promptfoo (open source, plugins OWASP LLM Top 10) ou DeepTeam. Ces outils génèrent automatiquement des attaques adversariales et mesurent le taux de succès contre votre application. Intégrez ces tests dans votre pipeline CI/CD pour une évaluation continue. Pour un audit plus approfondi, des entreprises spécialisées (Lakera, Astra Security) proposent des évaluations de sécurité IA avec modélisation des menaces.

Un modèle peut-il être rendu totalement résistant aux jailbreaks ?

Non, pas avec les architectures actuelles. La nature probabiliste des LLM et l’absence de séparation native entre instructions et données rendent une résistance totale impossible. La défense consiste à augmenter le coût de l’attaque (rendre les jailbreaks plus difficiles et plus détectables), à limiter l’impact en cas de succès (moindre privilège, sandboxing), et à détecter les compromissions rapidement (monitoring, logging). C’est la même logique que la sécurité informatique traditionnelle : on ne prévient pas toutes les intrusions, on en limite l’impact.