RGPD et IA

Le RGPD (Règlement Général sur la Protection des Données) s’applique intégralement à tout système d’intelligence artificielle qui traite des données à caractère personnel, que ce soit pour l’entraînement, le déploiement ou l’inférence. Combiné avec l’AI Act, il forme un double cadre réglementaire que toute organisation utilisant de l’IA en Europe doit respecter simultanément.

Le RGPD ne bloque pas l’IA. Il l’encadre. La nuance est fondamentale. Dès qu’un système de machine learning utilise des noms, des adresses, des images de visages, des données de santé, des comportements de navigation ou toute autre information permettant d’identifier directement ou indirectement une personne, le RGPD s’applique. Et cela concerne la quasi-totalité des systèmes IA en production.

La CNIL (Commission Nationale de l’Informatique et des Libertés) a fait de l’IA l’une de ses priorités stratégiques pour 2026, avec la publication de recommandations opérationnelles, un outil d’audit dédié (projet PANAME), et un renforcement significatif des contrôles et sanctions (plus de 400 millions d’euros d’amendes en France en 2025).

Texte: Règlement (UE) 2016/679 (RGPD), en vigueur depuis le 25 mai 2018
Autorité en France: CNIL (Commission Nationale de l’Informatique et des Libertés)
Sanctions RGPD: Jusqu’à 20 M€ ou 4% du CA mondial annuel
Articulation: RGPD (protection des données) + AI Act (sécurité et gouvernance des systèmes IA) s’appliquent simultanément
Articles clés pour l’IA: Art. 5 (principes), Art. 6 (bases légales), Art. 13-14 (information), Art. 22 (décisions automatisées), Art. 35 (AIPD)
Priorités CNIL 2026: IA et données personnelles, applications mobiles, identité numérique, données de santé, protection des mineurs

Les principes du RGPD appliqués à l’IA

Le RGPD repose sur sept principes fondamentaux qui s’appliquent avec des implications spécifiques pour les systèmes d’IA.

Limitation des finalités

Tout traitement de données personnelles doit avoir un objectif déterminé, légitime et explicite, défini en amont. Pour un système d’IA, cela signifie que la finalité doit être claire dès la conception du projet. Un modèle entraîné pour détecter la fraude ne peut pas être réutilisé pour du scoring crédit sans nouvelle justification. La CNIL insiste : l’objectif de « recherche scientifique » ne constitue pas en soi une base légale suffisante.

Minimisation des données

Seules les données strictement nécessaires à la finalité doivent être collectées. C’est un défi majeur pour l’IA : les modèles de deep learning sont gourmands en données, et la tentation est forte de collecter « au cas où ». La minimisation impose de justifier chaque catégorie de données utilisée pour l’entraînement, de supprimer les données non pertinentes, et de privilégier l’anonymisation ou la pseudonymisation quand c’est possible.

Exactitude

Les données doivent être exactes et, si nécessaire, mises à jour. Pour les datasets d’entraînement, cela implique un travail de nettoyage, de correction et de validation. Des données d’entraînement inexactes produisent des modèles biaisés ou erronés, ce qui viole à la fois le principe d’exactitude du RGPD et les exigences de qualité des données de l’AI Act (article 10).

Limitation de la conservation

Les données ne doivent pas être conservées au-delà de la durée nécessaire à la finalité. Pour l’IA, la question se pose de manière spécifique : les données d’entraînement doivent-elles être supprimées après l’entraînement du modèle ? Et le modèle lui-même, qui peut « mémoriser » des données personnelles (phénomène de memorization dans les LLM), constitue-t-il un traitement de données ? La CNIL a clarifié qu’un modèle entraîné ne peut pas, par défaut, être considéré comme un ensemble de données personnelles, mais que sa constitution doit se fonder sur un traitement licite.

Intégrité et confidentialité

Les données doivent être protégées contre l’accès non autorisé, la perte ou la destruction. Pour l’IA, cela couvre la sécurité des datasets d’entraînement, la protection du modèle contre les attaques d’extraction (model inversion, membership inference), et la sécurité de l’infrastructure d’inférence. Les travaux de recherche ont démontré que les LLM peuvent mémoriser et restituer des éléments textuels de leurs données d’entraînement (noms, adresses, numéros de téléphone), ce qui pose un risque de confidentialité direct.

Licéité (base légale)

Tout traitement doit reposer sur l’une des six bases légales du RGPD. Pour l’IA, les plus courantes sont le consentement (difficile à obtenir pour des datasets massifs), l’intérêt légitime (la base la plus utilisée en pratique, nécessitant une analyse de proportionnalité), l’exécution d’un contrat et l’obligation légale. Le choix de la base légale doit être documenté pour chaque phase du cycle de vie du système (collecte, entraînement, déploiement).

Responsabilité (accountability)

Le responsable du traitement doit pouvoir démontrer sa conformité. C’est le principe d’accountability : il ne suffit pas d’être conforme, il faut pouvoir le prouver. Pour l’IA, cela exige un registre des traitements à jour, une documentation des choix techniques et juridiques, et la capacité de répondre aux demandes des personnes et des autorités.

L’article 22 : le droit face aux décisions automatisées

L’article 22 du RGPD est le texte le plus directement pertinent pour l’IA décisionnelle. Il dispose que toute personne a le droit de ne pas faire l’objet d’une décision fondée exclusivement sur un traitement automatisé, y compris le profilage, produisant des effets juridiques la concernant ou l’affectant de manière significative.

En pratique, cela signifie que si un système d’IA prend des décisions automatisées ayant un impact significatif (refus de crédit, rejet de candidature, tarification d’assurance), l’organisation doit soit obtenir le consentement explicite de la personne, soit fonder la décision sur un contrat, soit s’appuyer sur une autorisation légale. Dans tous les cas, la personne doit pouvoir obtenir une intervention humaine, exprimer son point de vue, et contester la décision.

Article 22 + Article 86 AI Act = double droit à l’explication L’article 22 du RGPD donne un droit à l’intervention humaine et à la contestation pour les décisions automatisées. L’article 86 de l’AI Act ajoute un droit à l’explication pour les décisions des systèmes IA à haut risque. Les deux se cumulent : une décision automatisée par un système IA haut risque dans un domaine couvert par le RGPD (crédit, emploi, santé) doit satisfaire les deux textes. Les méthodes de feature attribution (SHAP) et les contrefactuels sont les outils techniques pour répondre à cette double exigence.

L’analyse d’impact (AIPD) pour les systèmes IA

L’article 35 du RGPD impose une analyse d’impact relative à la protection des données (AIPD, ou DPIA en anglais) quand un traitement est susceptible d’engendrer un risque élevé pour les droits et libertés des personnes. Les systèmes d’IA utilisant des données personnelles déclenchent quasi systématiquement cette obligation, notamment en cas de profilage, de traitement à grande échelle, ou de surveillance systématique.

L’AIPD doit décrire les opérations de traitement et leurs finalités, évaluer la nécessité et la proportionnalité du traitement, identifier les risques pour les droits des personnes, et définir les mesures pour atténuer ces risques.

À noter : l’AI Act impose également une évaluation d’impact sur les droits fondamentaux (article 27) pour certains déployeurs de systèmes haut risque. Les deux analyses d’impact (RGPD et AI Act) se complètent mais ne se remplacent pas. Le déployeur d’un système IA haut risque traitant des données personnelles devra potentiellement réaliser les deux évaluations.

RGPD et AI Act : articulation pratique

Le RGPD et l’AI Act coexistent et se complètent. Ils ne se remplacent pas. Voici comment ils s’articulent.

Aspect	RGPD	AI Act
Objet	Protection des données personnelles	Sécurité, gouvernance et risques des systèmes IA
Scope	Tout traitement de données personnelles	Les systèmes d’IA selon leur niveau de risque
Transparence	Information sur le traitement et la logique impliquée (art. 13-14)	Transparence du fonctionnement du système (art. 13, 50)
Décisions automatisées	Droit de ne pas être soumis à une décision automatisée (art. 22)	Supervision humaine obligatoire pour les systèmes haut risque (art. 14)
Analyse d’impact	AIPD pour les traitements à risque élevé (art. 35)	Évaluation d’impact sur les droits fondamentaux pour certains déployeurs (art. 27)
Documentation	Registre des traitements (art. 30)	Documentation technique complète, model cards (art. 11)
Biais et discrimination	Interdiction des discriminations via profilage	Gouvernance des données pour prévenir les biais (art. 10)
Sanctions	Jusqu’à 20 M€ ou 4% du CA mondial	Jusqu’à 35 M€ ou 7% du CA mondial
Autorité (France)	CNIL	Autorité nationale à désigner (la CNIL sera compétente pour les aspects protection des données)

La CNIL a précisé qu’elle est compétente pour appliquer le RGPD aux fournisseurs de systèmes IA dont l’établissement principal est en France, y compris les fournisseurs de modèles d’IA à usage général. La CNIL appliquera conjointement le RGPD et contribuera à l’application de l’AI Act sur les aspects liés à la protection des données.

Cas spécifiques de l’IA

LLM et données personnelles

Les grands modèles de langage posent des défis uniques pour le RGPD. Ils sont entraînés sur des corpus massifs contenant inévitablement des données personnelles (noms, adresses, numéros de téléphone extraits du web). Les recherches ont montré que ces modèles peuvent « mémoriser » et restituer des fragments de leurs données d’entraînement.

Le Comité européen de la protection des données (EDPB) a publié des critères sur l’application du RGPD aux modèles d’IA, en distinguant les modèles anonymes (qui ne contiennent pas de données identifiantes et ne sont pas soumis au RGPD) des modèles qui peuvent restituer des données personnelles (pleinement soumis). En pratique, la plupart des LLM de grande taille sont dans la seconde catégorie.

Les fournisseurs de LLM doivent mettre en place des mesures techniques pour minimiser la mémorisation (différential privacy, déduplication des données d’entraînement, filtrage), et fournir des mécanismes permettant aux personnes d’exercer leurs droits (notamment le droit d’effacement, même si son application aux données « mémorisées » dans les poids d’un modèle reste un défi technique majeur).

Web scraping et collecte de données d’entraînement

La collecte massive de données sur internet pour entraîner des modèles d’IA (web scraping) soulève des questions RGPD fondamentales. Les données publiquement accessibles restent des données personnelles au sens du RGPD. Leur collecte automatisée à grande échelle nécessite une base légale (typiquement l’intérêt légitime), une information des personnes (souvent techniquement impossible quand les données proviennent de millions de sources), et le respect du droit d’opposition.

La CNIL a déjà sanctionné des pratiques de scraping facial (Clearview AI, 20 M€ d’amende en 2022). L’AI Act interdit explicitement le scraping facial non ciblé pour la constitution de bases de données de reconnaissance faciale.

Transferts hors UE

L’utilisation d’API de fournisseurs américains (OpenAI, Google, Meta) implique un transfert de données personnelles vers les États-Unis. Depuis l’invalidation du Privacy Shield (arrêt Schrems II, 2020), ces transferts nécessitent des clauses contractuelles types (CCT) et une évaluation de l’impact du transfert. Le Data Privacy Framework (DPF) adopté en 2023 permet certains transferts vers les États-Unis, mais sa solidité juridique reste contestée.

En pratique, vérifiez que votre fournisseur IA est couvert par le DPF ou dispose de CCT signées, documentez votre évaluation d’impact du transfert, et envisagez des alternatives européennes ou le déploiement local (IA on-premise) pour les données les plus sensibles.

IA locale : la voie de la simplification

Le déploiement d’IA en local (modèles exécutés sur les serveurs de l’organisation, sans envoi de données vers l’extérieur) simplifie considérablement la conformité RGPD. Il élimine les transferts hors UE, supprime le recours à un sous-traitant externe, et réduit les risques de fuite. Les solutions comme Ollama, LM Studio ou les modèles open-weight de Mistral et Meta permettent ce type de déploiement. L’IA locale ne supprime pas toutes les obligations RGPD (la finalité, la minimisation et les droits des personnes s’appliquent toujours), mais elle élimine les zones de risque les plus complexes.

Droits des personnes et IA

Le RGPD confère aux personnes des droits spécifiques qui s’appliquent aux systèmes IA :

Droit d’accès (art. 15). La personne peut demander quelles données la concernant sont traitées par le système IA, y compris pour l’entraînement.

Droit de rectification (art. 16). Si les données utilisées sont inexactes, la personne peut demander leur correction. Pour un modèle déjà entraîné, cela peut nécessiter un réentraînement ou une correction des données de sortie.

Droit d’effacement (art. 17). La personne peut demander la suppression de ses données. Pour les données d’entraînement, cela pose le défi du « machine unlearning » : comment retirer l’influence de données spécifiques d’un modèle déjà entraîné sans le réentraîner entièrement ? C’est un domaine de recherche actif.

Droit d’opposition (art. 21). La personne peut s’opposer au traitement de ses données, notamment pour le profilage. Les organisations doivent mettre en place un mécanisme d’opt-out effectif.

Droit à l’explication (art. 13-14, 22). Quand une décision automatisée produit des effets significatifs, la personne a droit à des informations sur la logique impliquée. C’est le fondement juridique de l’explicabilité des systèmes IA.

La CNIL a publié en 2026 de nouvelles recommandations spécifiques sur l’information des personnes et l’exercice des droits dans le contexte du développement de systèmes d’IA, après consultation publique.

Le rôle de la CNIL en 2026

La CNIL a considérablement renforcé son action sur l’IA :

Plan d’action IA. Lancé en mai 2023, il a produit une série de recommandations opérationnelles pour le développement de systèmes d’IA conformes au RGPD, couvrant la collecte de données, l’entraînement, le déploiement et l’exercice des droits.

Projet PANAME. Un outil d’audit RGPD des modèles d’IA, en phase de test en février 2026. Il permettra d’évaluer automatiquement la conformité RGPD d’un modèle d’IA.

Recommandations IA et santé. En mars 2026, la CNIL et la HAS (Haute Autorité de Santé) ont lancé une consultation publique sur un guide pour le développement et l’évaluation des systèmes d’IA en santé conformes à la réglementation.

Sanctions renforcées. En janvier 2026, la CNIL a prononcé 42 M€ d’amende contre Free pour des manquements à la sécurité des données. L’intensification des contrôles touche désormais les PME et les sous-traitants, pas seulement les grandes entreprises.

Mise en conformité pratique

Identifiez tous les traitements IA impliquant des données personnelles. Mettez à jour votre registre des traitements en y intégrant chaque système IA : finalité, base légale, catégories de données, destinataires, durée de conservation, mesures de sécurité.

Réalisez une AIPD pour chaque système IA à risque. Tout système de profilage, de scoring, de décision automatisée ou traitant des données sensibles à grande échelle nécessite une AIPD.

Sécurisez les contrats avec les fournisseurs IA. Vérifiez que chaque fournisseur d’IA (API, SaaS) dispose d’un DPA (Data Processing Agreement) conforme, incluant les garanties sur le traitement des données, les transferts hors UE, et l’opt-out de l’entraînement sur vos données.

Informez les personnes concernées. Mettez à jour votre politique de confidentialité en mentionnant l’usage d’IA : type d’outil, finalité, transparence sur la logique impliquée, droits des personnes.

Mettez en place les mécanismes de droits. Processus d’accès, de rectification, d’effacement et d’opposition effectifs, incluant un recours humain pour les décisions automatisées.

ChatGPT, Claude et les LLM en entreprise : attention aux versions Les versions gratuites des LLM (ChatGPT Free, Claude Free) ne sont généralement pas conformes RGPD pour un usage professionnel avec des données personnelles. Utilisez les versions entreprise (ChatGPT Enterprise, Claude Team/Enterprise) qui offrent un DPA, un opt-out de l’entraînement sur vos données, et un hébergement potentiellement européen. Pour les données sensibles, privilégiez l’IA locale (Ollama, LM Studio avec des modèles open-weight) qui garantit zéro transmission externe.

Questions fréquentes sur le RGPD et l’IA

Le RGPD s’applique-t-il à tous les systèmes d’IA ?

Non, seulement à ceux qui traitent des données à caractère personnel. Un système d’IA qui analyse des données purement industrielles (capteurs de machines, données météo, signaux anonymisés) n’est pas soumis au RGPD. Mais dès qu’un système traite des données permettant d’identifier directement ou indirectement une personne (nom, email, adresse IP, image, voix, données de comportement), le RGPD s’applique intégralement. En pratique, la grande majorité des systèmes IA en entreprise traitent des données personnelles et sont donc soumis au RGPD.

Quelle base légale utiliser pour l’entraînement d’un modèle IA ?

La base légale la plus utilisée est l’intérêt légitime (article 6.1.f), qui nécessite une analyse de proportionnalité démontrant que l’intérêt de l’organisation prévaut sur les droits des personnes, compte tenu des mesures de protection mises en place (anonymisation, pseudonymisation, minimisation). Le consentement est rarement praticable pour les datasets massifs. L’exécution d’un contrat peut être invoquée quand le modèle est nécessaire pour fournir un service contractuel. Dans tous les cas, la base légale doit être documentée et justifiée.

RGPD et AI Act : lequel prime ?

Les deux s’appliquent simultanément, sans hiérarchie. Le RGPD régit la protection des données personnelles. L’AI Act régit la sécurité et la gouvernance des systèmes IA. Un système IA haut risque traitant des données personnelles doit satisfaire les exigences des deux textes. En cas de conflit potentiel, le Digital Omnibus (proposé en novembre 2025) vise à clarifier l’articulation. La CNIL reste compétente pour les aspects protection des données, tandis qu’une autorité nationale dédiée supervisera les aspects AI Act.

Comment gérer le droit à l’effacement pour un modèle déjà entraîné ?

C’est l’un des défis les plus complexes du RGPD appliqué à l’IA. Si une personne demande l’effacement de ses données et que celles-ci ont été utilisées pour entraîner un modèle, trois options existent : supprimer les données du dataset d’entraînement (ne résout pas le problème si le modèle a « mémorisé » l’information), réentraîner le modèle sans ces données (coûteux), ou appliquer des techniques de « machine unlearning » (domaine de recherche actif, pas encore mature). En pratique, documentez votre approche, appliquez les techniques de minimisation en amont (anonymisation, pseudonymisation), et consultez la CNIL en cas de doute.

Les données publiquement accessibles sont-elles exemptées du RGPD ?

Non. Les données publiées sur internet (profils LinkedIn, posts sur les réseaux sociaux, sites web personnels) restent des données personnelles au sens du RGPD. Leur collecte automatisée (web scraping) pour l’entraînement d’un modèle d’IA nécessite une base légale, une information des personnes (dans la mesure du possible), et le respect du droit d’opposition. Le caractère « public » d’une donnée ne la rend pas libre de droit au sens du RGPD. La CNIL a déjà sanctionné des entreprises pour du scraping massif de données publiques.