Copyright et IA (Droit d’Auteur et Intelligence Artificielle)

La question du copyright et de l’IA porte sur deux enjeux distincts mais liés : la licéité de l’utilisation d’œuvres protégées par le droit d’auteur pour entraîner des modèles d’IA (input), et le statut juridique des contenus générés par l’IA (output).

Les modèles de machine learning actuels, en particulier les LLM et les modèles de génération d’images, sont entraînés sur des corpus massifs contenant des milliards de textes, images et fichiers audio provenant d’internet. Une large part de ces contenus est protégée par le droit d’auteur. Cette situation a déclenché une vague de procès aux États-Unis et en Europe, et le Parlement européen a adopté le 10 mars 2026 une résolution majeure exigeant transparence et rémunération équitable des ayants droit.

Pour les entreprises qui développent ou utilisent de l’IA, comprendre ce cadre juridique n’est plus optionnel. L’AI Act impose des obligations de conformité au droit d’auteur pour les fournisseurs de modèles d’IA à usage général (article 53), avec des sanctions pouvant atteindre 15 M€ ou 3% du CA mondial à partir d’août 2026.

Enjeux: Utilisation d’œuvres protégées pour l’entraînement (input) + statut des contenus générés par IA (output)
Cadre européen: Directive DSM 2019/790 (exception TDM + opt-out), AI Act art. 53 (obligations fournisseurs GPAI)
Résolution Parlement UE: 10 mars 2026 (460 voix pour) : transparence, rémunération équitable, registre EUIPO
Cadre US: Doctrine du fair use (au cas par cas), procès en cours (NYT v. OpenAI, Getty v. Stability AI, etc.)
Deadline: Obligations art. 53 en vigueur depuis août 2025 ; sanctions applicables à partir d’août 2026
Mécanisme clé: Opt-out : les ayants droit peuvent interdire l’utilisation de leurs œuvres via des protocoles machine-readable (robots.txt, métadonnées)

L’entraînement des modèles : la question centrale

Le problème fondamental

Pour entraîner un LLM ou un modèle de génération d’images, les développeurs utilisent des datasets contenant des milliards de documents scrapés sur internet : articles de presse, livres numérisés, photos, illustrations, partitions, code source. Une partie significative de ces contenus est protégée par le droit d’auteur. La question juridique centrale : cette utilisation constitue-t-elle une violation du droit d’auteur, ou est-elle couverte par une exception légale ?

La réponse dépend de la juridiction. L’Europe et les États-Unis ont adopté des approches fondamentalement différentes.

L’approche européenne : exception TDM et opt-out

En Europe, la Directive sur le marché unique numérique (Directive DSM 2019/790) a introduit deux exceptions pour le text and data mining (TDM), qui couvrent en principe l’entraînement des modèles d’IA :

Article 3 : TDM à des fins de recherche scientifique. Les organismes de recherche et les institutions du patrimoine culturel peuvent réaliser du TDM sur des contenus auxquels ils ont un accès licite, sans restriction. Cette exception est obligatoire et ne peut pas être annulée par contrat.

Article 4 : TDM à des fins commerciales (avec opt-out). Toute personne peut réaliser du TDM sur des contenus auxquels elle a un accès licite, sauf si les ayants droit ont expressément réservé leurs droits par des moyens lisibles par machine. C’est le mécanisme d’opt-out : par défaut, le TDM est autorisé, mais les ayants droit peuvent s’y opposer.

Ce mécanisme d’opt-out est au cœur du débat. Comment les ayants droit expriment-ils leur refus de manière « machine-readable » ? Plusieurs protocoles existent : le fichier robots.txt (qui peut bloquer les crawlers), des balises meta dans le HTML, des métadonnées embarquées dans les fichiers, ou des protocoles spécifiques comme le TDM Reservation Protocol. La Commission européenne et l’EUIPO travaillent à standardiser ces protocoles pour garantir leur interopérabilité.

L’opt-out a des limites structurelles L’opt-out suppose que l’ayant droit contrôle le serveur hébergeant son contenu. Un photographe dont les images sont republiquées sur des dizaines de sites tiers ne peut pas ajouter un robots.txt sur ces sites. Un auteur dont les articles sont repris sans autorisation par des agrégateurs ne maîtrise pas la diffusion de son contenu. L’opt-out protège les plateformes qui publient leurs propres contenus, mais laisse les créateurs individuels largement démunis.

L’approche américaine : le fair use au cas par cas

Aux États-Unis, il n’existe pas d’exception TDM spécifique. La défense repose sur la doctrine du fair use, qui évalue au cas par cas si l’utilisation d’une œuvre protégée est licite, selon quatre facteurs : la finalité de l’utilisation (transformative use), la nature de l’œuvre, la quantité utilisée et l’impact sur le marché de l’œuvre originale.

Les décisions judiciaires divergent. Un juge californien a qualifié l’entraînement d’une IA de « quintessentiellement transformatif ». Un autre, dans une affaire similaire, a alerté sur le risque que l’IA « inonde le marché » de contenus et sape les incitations des créateurs. Les procès majeurs (New York Times v. OpenAI, Getty Images v. Stability AI, Authors Guild v. OpenAI, Universal Music v. Anthropic) sont en cours et leurs verdicts sont attendus en 2026, ce qui en fait une année charnière pour la jurisprudence.

L’AI Act et le copyright : article 53

L’AI Act impose deux obligations spécifiques aux fournisseurs de modèles d’IA à usage général (GPAI) en matière de droit d’auteur :

Article 53(1)(c) : politique de conformité au droit d’auteur. Les fournisseurs doivent mettre en place une politique de conformité au droit d’auteur de l’UE, et en particulier identifier et respecter les réservations de droits (opt-out) exprimées conformément à l’article 4(3) de la Directive DSM. Cette obligation s’applique « indépendamment de la juridiction dans laquelle les actes pertinents au titre du droit d’auteur sous-tendant l’entraînement ont lieu » (considérant 106). C’est un effet extraterritorial majeur : un fournisseur américain entraînant son modèle aux États-Unis doit respecter les opt-out européens s’il met son modèle sur le marché de l’UE.

Article 53(1)(d) : résumé du contenu d’entraînement. Les fournisseurs doivent publier un résumé suffisamment détaillé du contenu utilisé pour l’entraînement, selon un template fourni par l’AI Office (publié le 24 juillet 2025). Ce template exige des informations générales sur les données, une liste des principales sources de données (publiques et privées, avec les 10% de domaines les plus scrapés identifiés nommément), et une description des mesures de conformité au droit d’auteur.

Ces obligations sont en vigueur depuis le 2 août 2025 pour les nouveaux modèles. Les modèles mis sur le marché avant cette date ont jusqu’au 2 août 2027 pour publier leur résumé. Les sanctions (jusqu’à 15 M€ ou 3% du CA) seront applicables à partir du 2 août 2026.

Le Code de pratique GPAI et le copyright Le Code de pratique pour les modèles GPAI, finalisé en 2025, contient un chapitre dédié au copyright. Les signataires s’engagent à exclure les sites identifiés comme sources persistantes de contrefaçon, à respecter les protocoles d’opt-out (robots.txt selon le standard IETF RFC 9309 et autres protocoles reconnus), et à fournir des informations transparentes sur les crawlers utilisés. L’AI Office a indiqué qu’il ne sanctionnerait pas les signataires pendant la première année (jusqu’à août 2026) s’ils ne parviennent pas à implémenter immédiatement toutes les mesures.

La résolution du Parlement européen (mars 2026)

Le 10 mars 2026, le Parlement européen a adopté une résolution majeure sur le droit d’auteur et l’IA générative, par 460 voix pour, 71 contre et 88 abstentions. Ce texte, non contraignant mais politiquement très significatif, formule plusieurs recommandations ambitieuses :

Transparence totale. Les fournisseurs d’IA doivent communiquer une liste détaillée de toutes les œuvres protégées utilisées pour l’entraînement, incluant les enregistrements des activités d’exploration pour la génération augmentée par récupération (RAG). L’absence de liste pourrait être considérée comme une violation du droit d’auteur.

Rémunération équitable. Les ayants droit doivent être équitablement rémunérés pour l’utilisation de leurs œuvres dans l’entraînement de l’IA. Le Parlement rappelle que le secteur créatif européen représente 6,9% du PIB de l’UE.

Droit d’opt-out effectif. Les ayants droit doivent pouvoir empêcher l’utilisation de leurs œuvres pour l’entraînement de l’IA. Le Parlement suggère que l’EUIPO gère un registre des œuvres et des créateurs ayant choisi l’opt-out.

Application extraterritoriale. Le droit d’auteur de l’UE doit s’appliquer à tous les systèmes d’IA générative mis à disposition sur le marché européen, quel que soit le lieu d’entraînement.

Cette résolution préfigure une probable révision de la Directive Copyright, prévue par la loi pour juin 2026, qui pourrait transformer ces recommandations en obligations contraignantes.

Le statut des contenus générés par IA

Le critère de l’originalité

En droit européen, une œuvre est protégeable si elle est « originale », c’est-à-dire si elle résulte des choix libres et créatifs d’un auteur et reflète sa personnalité. La question pour l’IA : un contenu généré par un algorithme, sans intervention humaine créative, peut-il être considéré comme « original » ?

La réponse consensuelle des juristes : un contenu entièrement généré par IA, sans implication créative humaine significative, n’est pas protégeable par le droit d’auteur. Il tombe dans le domaine public. En revanche, si un humain a fait des choix créatifs significatifs dans le processus (sélection du prompt, curation, modification, composition), l’œuvre résultante peut être protégeable, au prorata de l’implication humaine.

Aux États-Unis, le Copyright Office a confirmé cette position : les œuvres générées par IA sans auteur humain identifiable ne sont pas enregistrables. Toutefois, les éléments ajoutés ou sélectionnés par un humain peuvent l’être.

Implications pratiques

Pour les entreprises utilisant l’IA générative, cela signifie que les contenus purement générés par IA (images Midjourney brutes, textes ChatGPT non édités) ne bénéficient d’aucune protection par le droit d’auteur. N’importe qui peut les copier, modifier et redistribuer sans violation. Si vous voulez protéger vos créations assistées par IA, documentez votre apport créatif humain : sélection, modification, composition, direction artistique.

Les procès majeurs en cours

Procès	Juridiction	Enjeu	Statut
New York Times v. OpenAI/Microsoft	États-Unis (New York)	Utilisation d’articles du NYT pour entraîner GPT. Le NYT allègue que ChatGPT reproduit des passages quasi-verbatim	En cours
Getty Images v. Stability AI	États-Unis + Royaume-Uni	Utilisation de millions de photos Getty pour entraîner Stable Diffusion	En cours
Authors Guild v. OpenAI	États-Unis	Utilisation de livres protégés pour l’entraînement de GPT. Plusieurs auteurs célèbres parmi les plaignants	En cours
GEMA v. OpenAI	Allemagne (Munich)	Utilisation de contenus musicaux protégés. Première affaire majeure sous le droit européen	En cours, décision attendue
LAION v. Kneschke	Allemagne (Hambourg)	Utilisation de photos dans un dataset d’entraînement. Le tribunal a confirmé que l’exception TDM s’applique si l’opt-out n’a pas été exprimé	Appel probable au BGH

Les verdicts attendus en 2026 façonneront durablement le cadre juridique. Aux États-Unis, la question du fair use pour l’entraînement IA sera tranchée. En Europe, l’interprétation de l’opt-out et les conditions de la rémunération seront clarifiées.

Stratégies des acteurs

Face à l’incertitude juridique, deux stratégies opposées émergent :

Affrontement judiciaire. De nombreux ayants droit (auteurs, éditeurs de presse, photographes, musiciens) ont choisi la voie des procès pour forcer les tribunaux à statuer que l’entraînement IA sans licence est illicite. Le New York Times, Getty Images, l’Authors Guild et la GEMA sont les fers de lance de cette approche.

Négociation et partenariat. D’autres acteurs ont choisi de négocier directement avec les fournisseurs d’IA. Des accords de licence ont été conclus entre des éditeurs de presse (Associated Press, Le Monde, Axel Springer) et OpenAI. Disney a investi 1 milliard de dollars dans OpenAI fin 2025 avec une licence d’utilisation de ses personnages. Warner Music a conclu des accords avec des startups d’IA musicale. Ces partenariats dessinent les contours de nouveaux modèles économiques.

Impact par secteur créatif

Presse et édition

Les éditeurs de presse sont en première ligne du conflit copyright-IA. Les articles de presse sont massivement utilisés dans les données d’entraînement des LLM, et les systèmes de recherche IA (Perplexity, ChatGPT avec web browsing) risquent de réduire le trafic vers les sites d’information. La résolution du Parlement européen souligne que les droits voisins qui protègent les éditeurs de presse jouent un rôle spécifique pour la démocratie européenne. Certains éditeurs ont choisi la voie de la licence (Associated Press, Le Monde, Axel Springer avec OpenAI), d’autres la voie judiciaire (New York Times).

Musique

L’IA générative musicale (Suno, Udio) a déclenché des poursuites de la part des majors (Universal, Sony, Warner). L’enjeu : ces modèles ont été entraînés sur des catalogues musicaux protégés et peuvent générer des morceaux imitant le style d’artistes spécifiques. La GEMA (société de gestion des droits musicaux en Allemagne) a engagé une action contre OpenAI, première affaire de ce type sous le droit européen. Warner Music a parallèlement choisi la voie du partenariat avec des startups d’IA musicale, illustrant la dualité des stratégies du secteur.

Arts visuels et photographie

Les modèles de génération d’images (Midjourney, Stable Diffusion, DALL-E) ont cristallisé les tensions. Getty Images a poursuivi Stability AI pour l’utilisation de millions de photos protégées. Des artistes individuels (Sarah Andersen, Kelly McKernan) ont également engagé des actions collectives. L’enjeu va au-delà de l’entraînement : certains modèles peuvent générer des images « dans le style de » artistes spécifiques, soulevant la question de la protection du style artistique (qui n’est pas protégé par le droit d’auteur en tant que tel, contrairement aux œuvres individuelles).

Code source

GitHub Copilot, entraîné sur des milliards de lignes de code open source hébergées sur GitHub, a fait l’objet d’une action collective alléguant la violation des licences open source. La question spécifique : quand un outil de suggestion de code reproduit des extraits de code sous licence copyleft (GPL), les obligations de la licence (partage à l’identique) s’appliquent-elles à l’output ? Les tribunaux n’ont pas encore tranché, mais le sujet est particulièrement pertinent pour les développeurs utilisant des assistants de code IA.

Perspectives d’évolution

Plusieurs évolutions sont attendues dans les mois à venir :

Révision de la Directive Copyright. La Directive DSM prévoit une révision pour juin 2026. Compte tenu de la résolution du Parlement européen, cette révision pourrait introduire une obligation de rémunération pour l’utilisation d’œuvres protégées dans l’entraînement de l’IA, une présomption d’utilisation si le résumé de contenu d’entraînement est absent, et un registre centralisé d’opt-out géré par l’EUIPO.

Standardisation des protocoles d’opt-out. La Commission européenne et l’EUIPO finalisent un processus de consultation pour identifier des protocoles machine-readable standardisés. L’adoption d’un protocole unique faciliterait la conformité pour les fournisseurs et l’exercice des droits pour les ayants droit.

Jurisprudence américaine. Les verdicts attendus en 2026 (NYT v. OpenAI, Getty v. Stability AI) définiront si l’entraînement IA constitue un fair use aux États-Unis. En cas de verdict défavorable pour les fournisseurs d’IA, le marché pourrait basculer vers un modèle de licences systématiques.

Modèles économiques émergents. Des plateformes de données consenties (Shutterstock avec DALL-E, Adobe Stock avec Firefly) proposent des modèles où les créateurs sont rémunérés pour la contribution de leurs œuvres à l’entraînement. Ces approches pourraient devenir la norme si la rémunération devient obligatoire en Europe.

Mise en conformité pour les entreprises

Si vous développez un modèle d’IA : mettez en place une politique de conformité au droit d’auteur documentée. Identifiez et respectez les opt-out (robots.txt, métadonnées). Publiez un résumé de votre contenu d’entraînement selon le template de l’AI Office. Excluez les sources identifiées comme contrefaisantes. Documentez votre processus de collecte et de filtrage des données.

Si vous utilisez un modèle tiers (API, SaaS) : vérifiez que votre fournisseur a publié son résumé de contenu d’entraînement. Incluez des clauses de conformité copyright dans votre contrat. Évaluez le risque que les sorties du modèle reproduisent du contenu protégé. Ne publiez pas de contenu généré par IA sans vérification de l’absence de reproduction.

Si vous êtes ayant droit : exprimez votre opt-out par des moyens machine-readable (robots.txt avec les directives appropriées, métadonnées dans vos fichiers). Enregistrez vos œuvres et votre opt-out auprès des registres qui seront mis en place. Surveillez les résumés de contenu d’entraînement publiés par les fournisseurs GPAI. Envisagez des accords de licence avec les fournisseurs d’IA si votre stratégie est la monétisation plutôt que l’interdiction.

Lien avec l’écosystème XAI

Le copyright et la transparence sont intimement liés. Les obligations de l’article 53 de l’AI Act (résumé du contenu d’entraînement) sont une forme de transparence sur les données. Le watermarking et la provenance du contenu servent à la fois la transparence AI Act (article 50) et la protection du droit d’auteur (identification du contenu IA). La résolution du Parlement européen recommande d’ailleurs l’utilisation de filigranes numériques comme mécanisme de contrôle complémentaire.

Les liens avec le RGPD sont également forts : le web scraping massif pour l’entraînement implique à la fois des données personnelles (soumises au RGPD) et des contenus protégés par le droit d’auteur. La conformité doit couvrir les deux dimensions simultanément.

Questions fréquentes sur le copyright et l’IA

L’entraînement d’un modèle IA sur des œuvres protégées est-il légal en Europe ?

Oui, sous conditions. La Directive DSM (article 4) autorise le text and data mining à des fins commerciales, sauf si les ayants droit ont expressément réservé leurs droits via des moyens lisibles par machine (opt-out). Si l’ayant droit n’a pas exprimé d’opt-out, l’entraînement est licite. Si un opt-out valide est en place, l’entraînement sans autorisation constitue une violation. L’AI Act renforce cette obligation en imposant aux fournisseurs GPAI de mettre en place une politique active d’identification et de respect des opt-out. La décision du tribunal de Hambourg (LAION v. Kneschke) a confirmé cette interprétation.

Un contenu généré par IA est-il protégé par le droit d’auteur ?

En principe, non, si aucun humain n’a fait de choix créatifs significatifs dans le processus. Le droit d’auteur exige l’originalité, c’est-à-dire l’expression de la personnalité d’un auteur humain. Un texte ou une image purement générés par IA (sans intervention humaine créative) ne sont pas protégeables et tombent dans le domaine public. En revanche, si un humain a apporté une contribution créative significative (sélection, modification, composition, direction artistique), la part humaine de l’œuvre peut être protégeable. La frontière est floue et sera précisée par la jurisprudence.

Qu’est-ce que l’opt-out et comment l’activer ?

L’opt-out est le mécanisme par lequel un ayant droit interdit l’utilisation de ses œuvres pour le text and data mining (et donc l’entraînement IA). Pour l’activer, vous devez exprimer votre refus par des moyens lisibles par machine : ajouter des directives dans votre fichier robots.txt (ex : User-agent: GPTBot / Disallow: /), intégrer des balises meta dans vos pages HTML, ou embarquer des métadonnées dans vos fichiers (images, PDF). La Commission européenne et l’EUIPO travaillent à standardiser ces protocoles. Le futur registre EUIPO pourrait offrir un mécanisme centralisé.

L’AI Act s’applique-t-il au copyright même si l’entraînement a eu lieu hors UE ?

Oui. L’article 53(1)(c) de l’AI Act, renforcé par le considérant 106, s’applique « indépendamment de la juridiction dans laquelle les actes pertinents au titre du droit d’auteur sous-tendant l’entraînement ont lieu ». Un fournisseur américain qui entraîne son modèle sur des serveurs aux États-Unis mais le met à disposition d’utilisateurs européens doit respecter les opt-out européens et publier le résumé de contenu d’entraînement. C’est un effet extraterritorial assumé par le législateur européen.

Quels risques pour une entreprise qui utilise un LLM sans vérifier la conformité copyright ?

Les risques sont multiples. Le fournisseur du modèle GPAI risque des sanctions AI Act (jusqu’à 15 M€ ou 3% du CA) pour non-respect de l’article 53. Si un output du modèle reproduit substantiellement une œuvre protégée, le déployeur peut être poursuivi pour contrefaçon. La résolution du Parlement européen propose que l’absence de liste des œuvres d’entraînement constitue en elle-même une présomption de violation du droit d’auteur. Les procès en cours aux États-Unis portent sur des milliards de dollars de dommages potentiels. En pratique, vérifiez que votre fournisseur est conforme à l’article 53, incluez des clauses d’indemnisation dans vos contrats, et ne publiez jamais de contenu généré par IA sans vérification.