Propriété Intellectuelle et Intelligence Artificielle Générative : quelle régulation pour l’entraînement des modèles ?

Carolina Rambaldi
Étudiante en double diplôme de droit français et de droit anglais à King’s College London et à l’Université Paris-Panthéon-Assas, Master 2 Droit Européen du Marché et de la Régulation

À l’ère des avancées technologiques, la convergence entre l’intelligence artificielle (IA) et les droits de propriété intellectuelle est devenue un enjeu majeur, entraînant de nombreux litiges. Les différends concernant les méthodes d’entraînement des modèles d’intelligence artificielle générative (IAG) se multiplient. Ces modèles, capables de produire des œuvres imitant la créativité humaine, reposent sur une méthode d’apprentissage exploitant un vaste volume de contenus existants.

Cette méthode a donné lieu à une série de plaintes et d’actions collectives, avec OpenAI, leader du secteur grâce à son modèle ChatGPT, souvent au centre des litiges. Plusieurs grands groupes de presse, tels qu’Axel Springer, Dotdash Meredith, The Financial Times, The Associated Press et Le Monde, ont choisi de collaborer avec les entreprises technologiques pour encadrer l’utilisation de leurs contenus protégés.[1] D’autres cependant, dont huit journaux détenus par Alden Global Capital, accusent OpenAI de violer leurs droits de propriété intellectuelle en intégrant leurs œuvres sans autorisation dans ses ensembles de données d’apprentissage.[2] Des entreprises comme MidJourney et Meta AI sont également visées par des actions similaires.[3] Toutefois, la plainte déposée aux États-Unis par le New York Times contre OpenAI et Microsoft le 9 décembre 2023 se démarque : elle repose sur des exemples concrets qui, selon le New York Times, démontrent que les actions d’OpenAI et de Microsoft nécessitent une autorisation préalable des détenteurs de droits d’auteur.[4]

Le New York Times insiste notamment sur la nécessité de protéger ses droits afin de garantir un journalisme indépendant, pilier de la démocratie.[5] Il argumente que si les entreprises de presse ne peuvent contrôler l’utilisation de leurs contenus, leur capacité à financer les investissements nécessaires à leur production s’en trouvera compromise, réduisant ainsi les ressources allouées aux enquêtes et reportages d’intérêt public. Cela risquerait de laisser de nombreuses histoires cruciales inexplorées, au détriment de la société. Le New York Times critique également l’évolution d’OpenAI: fondée en 2015 en tant qu’organisation à but non lucratif, OpenAI a évolué en 2019 avec la création d’une filiale à but lucratif, soutenue par un investissement de plusieurs milliards de dollars de Microsoft.[6] Bien que cette structure limite les rendements pour les investisseurs et redistribue les profits excédentaires à l’entité à but non lucratif initiale, elle suscite des inquiétudes. OpenAI génère aujourd’hui environ 80 millions de dollars par mois,[7] et son projet de restructuration en société d’intérêt public, une entité lucrative engagée à servir le bien commun, attirerait potentiellement des investisseurs de premier plan tels qu’Apple et Nvidia, leader des fabricants de puces.[8] Le New York Times souligne ici un revirement par rapport aux valeurs initiales d’OpenAI, autrefois axées sur la transparence et la sécurité. Cette restructuration attirerait davantage d’investisseurs pour concurrencer des rivaux bien financés, comme Google et Anthropic, tout en répondant aux coûts élevés de développement d’une IA avancée. Cependant, des experts, dont Elon Musk, cofondateur d’OpenAI, s’inquiètent d’une potentielle concentration de pouvoir et de la priorité donnée aux profits, au détriment des valeurs de sécurité et de l’éthique.[9] Le secteur technologique, dirigé par des entreprises comme OpenAI et Microsoft, semble ainsi s’orienter vers des systèmes d’IA toujours plus performants, dans une course où la prudence pourrait être reléguée au second plan.[10]

Dans sa plainte, le New York Times avance plusieurs chefs d’accusation contre OpenAI et Microsoft. En premier lieu, il allègue une contrefaçon directe, affirmant qu’OpenAI a intégré des œuvres protégées du journal dans ses bases de données d’apprentissage sans autorisation. Microsoft, quant à lui, est accusé de contrefaçon secondaire, à la fois vicariale (ayant contrôlé et bénéficié des actions d’OpenAI) et contributive (ayant techniquement facilité ces violations). Le New York Times invoque également une violation du Digital Millennium Copyright Act en raison de la suppression des informations de gestion des droits d’auteur. Enfin, des accusations de concurrence déloyale et de dilution de marque sont formulées, le New York Times affirmant que l’utilisation non autorisée de ses marques dans les contenus générés par l’IA affaiblit leur caractère distinctif et nuit à leur réputation commerciale. Face à ces violations, le journal réclame des milliards de dollars de dommages et intérêts ainsi qu’une injonction permanente.[11]

Il est intéressant de rappeler l’affaire New York Times Co. v. Tasini (2001), dans laquelle le journal avait lui-même été accusé d’avoir utilisé des articles d’auteurs indépendants dans des bases de données sans autorisation.[12] À l’époque, le journal avait soutenu que la suppression de ces contenus risquait de compromettre l’intégrité des bases de données numériques. Aujourd’hui, en exigeant la suppression des modèles GPT contenant ses œuvres, le New York Times semble adopter une position inverse.

Cela illustre que la complexité de cette question ne se limite pas à la simple protection des droits d’auteur, mais soulève également des enjeux liés à l’innovation technologique. Les modèles d’intelligence artificielle générative s’appuient sur l’analyse de vastes volumes de données pour générer des résultats innovants, avec des répercussions majeures dans des secteurs tels que la recherche, la finance, le droit, l’éducation et l’industrie. La question centrale est donc de savoir comment concilier la protection des droits des créateurs avec l’évolution technologique de l’IA dans un cadre législatif adapté.

Cet article aborde deux approches distinctes de la régulation de l’entraînement des IA génératives. D’une part (I), nous examinerons les exceptions au droit d’auteur en comparant la doctrine du fair use aux États-Unis et les règles européennes sur la fouille de textes et de données (TDM). D’autre part (II), nous analyserons l’évolution vers une obligation de transparence, portée par des initiatives législatives en Europe et aux États-Unis.

I – Les exceptions au droit d’auteur : entre fair use et fouille de textes et de données

Dans sa déclaration publique du 8 janvier 2024, intitulée OpenAI and Journalism[13], OpenAI soutient que l’utilisation d’œuvres protégées pour l’entraînement de ses modèles relève de l’exception du fair use. L’entreprise met en avant le caractère transformatif de l’utilisation des données dans l’entraînement de ses modèles d’intelligence artificielle. Cependant, la décision des juges sur ce point est particulièrement attendue. La doctrine du fair use, codifiée par le Copyright Act de 1976, permet en effet l’utilisation limitée d’œuvres protégées sans autorisation préalable.[14] Elle repose sur quatre critères principaux que les tribunaux évaluent pour déterminer si une utilisation relève du fair use ou constitue une violation des droits d’auteur.

  1. Le but et le caractère de l’utilisation : Ce critère examine si l’utilisation est transformatrice, c’est-à-dire si elle modifie l’œuvre originale pour créer quelque chose de nouveau. Une utilisation transformatrice, surtout à des fins non lucratives, est plus susceptible d’être considérée comme du fair use. Une utilisation à but commercial est, quant à elle, soumise à un examen plus strict.
  2. La nature de l’œuvre protégée : Les œuvres créatives, comme les romans ou les films, bénéficient d’une protection renforcée, tandis que les œuvres factuelles, telles que les manuels scolaires ou les articles scientifiques, sont plus susceptibles d’être couvertes par l’exception du fair use.
  3. La quantité et la substantialité de l’utilisation : Ce critère évalue la proportion de l’œuvre utilisée. Reproduire une œuvre dans son intégralité rend plus difficile la justification du fair use, même si l’utilisation de petites portions peut poser problème si elles sont essentielles à l’œuvre.
  4. L’effet de l’utilisation sur le marché : Ce critère examine l’impact de l’utilisation sur le marché potentiel de l’œuvre originale. Si cette utilisation diminue la demande pour l’œuvre ou entre en concurrence directe avec celle-ci, il sera plus difficile de justifier le fair use.

Un exemple marquant de l’application de cette doctrine est l’affaire Google Books.[15] En 2004, Google a lancé Google Book Search, un service permettant de numériser des livres épuisés en partenariat avec plusieurs bibliothèques. Certaines œuvres étaient entièrement numérisées, tandis que d’autres n’étaient disponibles que sous forme d’extraits. Accusé de violation des droits d’auteur par l’Association of American Publishers et l’Authors Guild en 2005, Google a plaidé que son service était transformatif, car il augmentait la visibilité des œuvres sans nuire à leur marché. La Cour a donné raison à Google, estimant que la finalité de son service — faciliter la recherche et la découverte de livres — ne portait pas atteinte aux ventes des œuvres concernées. Ce cas illustre la possibilité d’appliquer l’exception du fair use à l’entraînement des modèles d’intelligence artificielle générative. Tout comme Google Books, où d’importantes quantités d’œuvres ont été numérisées pour créer un produit nouveau, l’entraînement des modèles d’Intelligence Artificielle Générative pourrait être vu comme une utilisation transformatrice.

Dans sa plainte contre OpenAI, le New York Times affirme que l’entraînement de modèles d’IA tels que ChatGPT sur ses œuvres protégées constitue une reproduction non autorisée. OpenAI a pu argumenter dans le passé que ses modèles d’IA se limitent à l’analyse de concepts, sans reproduire textuellement les œuvres. OpenAI compare cette démarche à l’apprentissage humain, où l’assimilation de concepts issus de contenus protégés ne constitue pas une violation des droits d’auteur.[16] De plus, l’entreprise soutient que l’entraînement n’extrait que des éléments non protégés, tels que des idées ou des faits. Cette défense rappelle la décision de la CJUE dans l’affaire Pelham (2019), où la Cour a jugé que l’utilisation d’un échantillon sonore modifié et méconnaissable ne nécessitait pas d’autorisation.[17] De la même manière, si les œuvres protégées utilisées pour entraîner des IAG sont modifiées au point de devenir méconnaissables, cela pourrait ne pas constituer une violation du droit d’auteur. 

Ce débat met en lumière l’incertitude juridique entourant l’application du fair use aux IA, une approche reposant sur des critères interprétatifs, laissée à l’appréciation des juges.
En Europe, les exceptions au droit d’auteur sont encadrées par la directive DSM (2019/790), qui réglemente la fouille de textes et de données (TDM).[18] Cependant, ces dispositions ne visent pas directement l’entraînement des modèles d’IAG. L’article 3 de la directive permet aux organismes de recherche et aux institutions patrimoniales de pratiquer des TDM à des fins de recherche scientifique sans autorisation préalable. L’article 4 étend cette exception aux usages commerciaux, sous réserve que les titulaires de droits n’aient pas explicitement exprimé leur opposition via un mécanisme d’opt-out. Ces exceptions restent toutefois limitées au droit de reproduction et n’autorisent pas la communication des données extraites au public. En outre, l’accès aux œuvres protégées doit être licite, ce qui soulève des questions concernant les contenus disponibles en ligne sans restrictions légales.

Le considérant 18 de la directive DSM précise que ces exceptions concernent les IA opérant à des fins purement statistiques et que la conservation des copies est limitée à la durée nécessaire à la fouille de données. Certains ont donc soutenu que cette directive n’était pas conçue pour réguler les modèles d’IAG, qui nécessitent d’immenses volumes de données pour leur entraînement.[19] De plus, des interrogations subsistent quant à la conformité de l’exception TDM avec le triple test du droit européen, qui impose que les exceptions ne doivent ni porter atteinte à l’exploitation normale de l’œuvre, ni causer de préjudice injustifié aux titulaires de droits.[20]

Néanmoins, la Commission européenne a confirmé l’applicabilité de ces exceptions dans un communiqué de Thierry Breton du 31 mars 2023, tandis que le règlement sur l’intelligence artificielle (AI Act) de l’Union européenne, adopté en mai 2024, va plus loin.[21] L’article 53(1)(c) consacre en effet le principe de l’exception de fouille de données, permettant aux fournisseurs d’utiliser des œuvres protégées, à moins que les titulaires de droits n’aient explicitement exprimé leur opposition via un mécanisme d’opt-out. Cet article pourra donc s’appliquer à l’entraînement des modèles d’IAG, et son champ d’application est élargi par l’article 2, qui inclut toute utilisation de modèles d’IA au sein de l’UE, peu importe où sont localisés les fournisseurs ou développeurs.

II – Tendance vers une obligation de divulgation des données

Afin de garantir que les droits d’opposition, notamment via l’opt-out, soient correctement respectés, le Règlement européen sur l’IA (AI Act) impose des exigences de transparence. L’article 53(1)(d) oblige ainsi les fournisseurs d’IA à publier un résumé suffisamment détaillé des contenus utilisés pour entraîner leurs modèles, selon un format défini par l’Office AI. Cependant, des interrogations subsistent quant à l’application pratique de cette exigence : ce résumé sera-t-il assez précis pour permettre l’identification des contenus protégés par le droit d’auteur ? En réponse à ces incertitudes, la France a confié en avril 2024 au Conseil Supérieur de la Propriété Littéraire et Artistique (CSPLA) la mission de définir quelles informations devront être divulguées par les fournisseurs d’IA.[22]

Une évolution parallèle a lieu aux États-Unis, où le Generative AI Copyright Disclosure Act, introduit au Congrès le 9 avril 2024, impose une transparence similaire.[23] Toute entité développant ou modifiant des bases de données d’entraînement doit soumettre un résumé détaillé des données utilisées auprès de l’United States Copyright Office avant la commercialisation des modèles. Pour les bases en ligne, une simple URL suffit, et un registre public centralisera ces informations. Contrairement au règlement européen, qui s’applique aux « fournisseurs d’IA » dans leur ensemble, le texte américain distingue les entreprises créant des bases de données de celles qui les modifient, offrant ainsi une approche plus nuancée[24]. Une autre différence notable réside dans l’obligation de divulgation aux États-Unis, qui doit être respectée au moins 30 jours avant la commercialisation et s’applique rétroactivement aux modèles déjà mis sur le marché avant l’entrée en vigueur de la loi. Cette mesure répond aux préoccupations soulevées par la Federal Trade Commission, qui, dans son analyse du 29 juin 2023, a souligné l’avantage concurrentiel des entreprises ayant eu un accès illimité aux données dans le passé, créant ainsi des barrières d’accès pour les nouveaux acteurs. La FTC a donc enjoint à prendre des mesures pour rétablir une concurrence loyale[25]. L’application pratique de ces dispositions reste à observer, notamment concernant la rétroactivité, où le processus de “machine unlearning” paraît particulièrement complexe, soulignant ainsi l’importance d’encadrer rigoureusement l’utilisation des futures données par les IAG.


[1]  Benjamin Mullin, ‘OpenAI and News Corp Strike Deal Over Use of Content’ New York Times (22 May 2024)

[2] Benjamin Mullin, ‘Newspapers Sued Microsoft and OpenAI Over AI Copyright Infringement’ New York Times (30 April 2024) 

[3] Stéphanie Carre, ‘Intelligence artificielle générative : entre adoption d’un règlement européen et nouvelle action américaine contre la violation massive du copyright du New York Times’ (Dalloz actualité, 15 février 2024)

[4] Benjamin Mullin, ‘New York Times Sues OpenAI and Microsoft Over Copyright Infringement’ New York Times (27 December 2023) 

[5] Complaint, New York Times v OpenAI, December 2023′ (2023) New York Times

[6] Dan Milmo, ‘OpenAI Planning to Become For-Profit Company, Say Reports’ The Guardian (26 September 2024)

[7] Le Figaro, ‘OpenAI, l’entreprise créatrice de ChatGPT, valorisée désormais à 80 milliards de dollars’ Le Figaro (18 February 2024)

[8] Aaron Tilley, ‘OpenAI in Talks with Apple for Funding to Develop ChatGPT’ Wall Street Journal (18 October 2024)

[9] Dan Milmo, ‘Why Is OpenAI Planning to Become a For-Profit Business and Does It Matter?’ The Guardian (26 September 2024)

[10] Nidhi Subbaraman, ‘OpenAI Restructuring Is a “Natural Consequence” of an AI Arms Race’ (Cornell University, 13 October 2023)

[11] Graeme Massie, ‘New York Times Sues Microsoft and OpenAI over Copyright Infringement’ The Independent (27 December 2023)

[12] NYT v. OpenAI: The Times’s About-Face’ (2024) Harvard Law Review Blog, 2 April 2024

[13] OpenAI and Journalism’ (2024) OpenAI, 8 January 2024

[14]  Copyright Act 1976, 17 USC §§ 101-810 (1976)

[15] Authors Guild v Google Inc [2015] 804 F 3d 202 (2nd Cir)

[16] Anthropic, ‘Response to the Copyright Office’s Notice of Inquiry on Copyright and Artificial Intelligence [Docket No. 2023-6]’ (2023); Google LLC, ‘Comments in Response to Notice of Inquiry, “Artificial Intelligence and Copyright”’, 88 Fed. Reg. 59942 (COLC-2023-0006) (30 October 2023)

[17] Pelham GmbH v Hütter and Schneider-Esleben (C-476/17) [2019] ECLI:EU:C:2019:624.

[18] Directive (EU) 2019/790 of the European Parliament and of the Council of 17 April 2019 on copyright and related rights in the Digital Single Market [2019] OJ L130/92

[19] Anne-Laure Caquet, ‘L’intelligence artificielle générative : l’Union européenne relaie le droit d’auteur au rang des exceptions’ (Village de la Justice, 24 mai 2024)

[20] ibid

[21] Thierry Breton, ‘Communiqué du 31 mars 2023’

[22] Anne-Laure Caquet, ‘L’intelligence artificielle générative : l’Union européenne relaie le droit d’auteur au rang des exceptions’ (Village de la Justice, 24 mai 2024)

[23] Betty Jeulin, ‘Analyse du projet de loi américain sur la divulgation des données d’entraînement des IA génératives’ (Dalloz actualité, 27 mai 2024)

[24] ibid

[25] ibid

Share this article
Shareable URL
Prev Post

The Civil Liability of Activist Funds

Next Post

Intellectual Property and Generative Artificial Intelligence: Regulating Model Training

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.

Read next