Licences pour l’IA générative

11.12.2025 – Cet article a été publié initialement dans « Schweizer Kunst » (2025), édité par Visarte – Association professionnelle des arts visuels Suisse.


Utilisation automatisée de contenus créatifs sur Internet

Philip Kübler, CEO ProLitteris

Philip Kübler, expert en droit des médias et en droit d’auteur, est directeur de ProLitteris, la société de droits d’auteur pour les textes et les images. Actuellement, il s’intéresse à la qualité d’auteur et au droit d’auteur par rapport à la problématique de l’intelligence artificielle générative. En juin 2023, il décrivait déjà, dans la revue juridique Medialex, la manière dont les systèmes d’IA génératives utilisent les droits d’auteur. Son opinion est contestée ; selon ses créateurs de l’EPFL, leur modèle linguistique a été entraîné de manière transparente et légale. Cependant, le consensus est large autour du fait que la sécurité juridique est lacunaire et que l’absence de lien et de transparence avec les contenus utilisés pose problème. Le Parlement suisse et le Conseil fédéral se penchent d’ailleurs sur le conflit entre l’IA et le droit d’auteur. Philip Kübler propose une approche et des solutions dans le contexte du droit d’auteur, de l’économie et de la culture sur Internet.

L’IA a besoin de matière première originale

Les systèmes d’IA générative avec fonction de récupération sont une sous-catégorie de l’intelligence artificielle qui utilise des modèles entraînés à partir de grandes quantités de données (textes, images, audios, vidéos, codes de programmes, etc.) ; elle génère ainsi de nouveaux contenus ou des contenus modifiés, dans différents formats, et en interaction avec les utilisateurs. Elles s’appuient donc sur des informations provenant de sources externes, notamment d’Internet, et leur application à grande échelle est pilotée par des directives humaines. Voilà une définition à peu près compréhensible.

Le service leader à ce jour de l’IA générative est le fameux « ChatGPT », et sa dénomination explique comment le système fonctionne :

Le « Chat » désigne les interactions basées sur le dialogue ; fabrication de la langue.

Le « G » désigne la génération de nouveaux contenus à partir de modèles : production des contenus.

Le « P » désigne le pré-entraînement à partir des masses de données : évaluation des contenus.

Le « T » désigne l’architecture de transformation : décomposition des sources, pondération des parties, saisie du contexte et production des prévisions pour de nouveaux contenus.

À cela s’ajoute, dans les systèmes actuels, la « récupération » (retrieval), c’est-à-dire l’extension par la récupération de données sur Internet : cette fonction de recherche et de copie extrait d’autres informations de bases de données, de documents ou d’Internet et les prend en compte dans la production ainsi générée.

Les systèmes d’IA générative ne restituent pas tels quels le matériel d’apprentissage de leurs modèles ; ils les morcellent et les décomposent. Leur entraînement mécanique est supervisé par des personnes humaines pour que les résultats répondent aux exigences de qualité et ne posent pas de problèmes juridiques. Cependant, les systèmes actuels sont manifestement pleins de défauts et erratiques, ce qui s’explique en partie par le manque de transparence.1

Tintin dans le style ligne claire
Demande à ChatGPT : « Fais-moi une image de bande dessinée à la ligne claire, avec un homme aux cheveux blonds ». Pourquoi l’image ressemble-t-elle immédiatement à Tintin, alors que le système refuse par ailleurs d’imiter un personnage protégé par des droits d’auteur ?

Le principe du consentement

Photographier les objets exposés dans une exposition d’art, faire des enregistrements lors d’un concert, et ensuite, sans aucune transparence, fabriquer des œuvres automatiquement à partir de ces prises ? Voilà un acte plutôt malvenu et probablement illégal. Il en irait de même si l’on scannait des livres dans une bibliothèque pour « créer » d’autres romans : ce ne serait pas fairplay, et cela représenterait probablement une violation de droits. Certes, ce n’est pas la même chose que le vol ou l’obtention frauduleuse d’une prestation, mais il s’agit tout de même d’une atteinte à la protection du patrimoine et de la prestation.

Lorsqu’un individu reprend des œuvres sans autorisation de leurs auteurs, il est susceptible de subir des poursuites juridiques. Lorsque cet acte se produit sur une base plus large, cela met en danger l’existence du créateur ou de la créatrice, la publication et la fidélité aux sources. Si tout un chacun peut se servir librement de tout ce qu’on trouve sur le Net, la substance de l’œuvre reprise se dilue, et finit par disparaître. Les bots d’IA les plus récents se procurent partout dans le monde tout ce que les machines avalent, et ils le font sans aucune transparence. Ces énormes masses de données, les big data, qui sont le fruit d’une collecte mondiale, ne restituent pas telles quelles les œuvres originales ; elles produisent un résultat issu d’une série d’évaluations et de recompositions.

Il est normal que cette pratique soit remise en question. Tout comme les données personnelles ou les secrets d’affaires, les discours et la créativité jouissent du principe de la propriété et de la souveraineté. En outre, les œuvres et les services sont des actifs et des biens commerciaux. Des industries entières fonctionnent grâce à ces œuvres et services. Les labels de musique, les studios de cinéma et les maisons d’édition produisent ou acquièrent de la musique, des films et de la littérature ; les organisateurs de concerts et les théâtres obtiennent des licences, engagent des acteurs et des interprètes.

En cherchant à protéger ces œuvres et services, il ne s’agit pas seulement de défendre des intérêts particuliers. La propriété et la liberté de contracter favorisent la différenciation et la concurrence, et les résultats obtenus dépendent du pouvoir de négociation, des partenariats conclus et des intérêts en jeu. Le principe du consentement marque également de son empreinte l’économie numérique. Lorsqu’on sollicite le patrimoine d’autrui, on respecte des règles. Le contenu relève de la liberté des médias, de celle de l’art et de la science. En revanche, les résultats sont soumis à la liberté de propriété et de contrat.

Tintin avec Milou
« Donnons un chien à l’homme et un os au chien ». ChatGPT nous dessine Milou, et l’homme ressemble encore plus à Tintin. Les systèmes d’IA générative sont basés sur des statistiques et, dans la matière première utilisée avec le mot-clé ligne claire, le maître et le chien ressemblent à Tintin et Milou.

Les titulaires de la propriété intellectuelle peuvent disposer de leurs œuvres, tout comme les objets physiques, les terrains, les brevets, les marques et les designs. La société et son ordre juridique prennent en compte plusieurs critères pour appliquer le principe de la propriété et du consentement : la répartition des richesses entre les riches et les pauvres, les problèmes d’expropriations pour certaines installations communautaires et voies de communication, le prix des médicaments en cas de crise, des mesures policières et douanières contre la contrefaçon.

Le principe du consentement présente également des avantages pour les intérêts de la société en matière de compréhension, de connaissance, d’éducation et de recherche. Lorsque les modèles d’IA accèdent légalement à leurs ressources, comme d’autres modèles commerciaux, ils traitent le contenu de la même manière que les logiciels, l’électricité et la capacité des serveurs. Il existe une concurrence pour les contenus qualitatifs et une incitation à en produire. Les consommateurs et l’ensemble de la société conservent un journalisme autofinancé et responsable.

Modèles de licence

Le droit d’auteur garantit la responsabilité de la part des personnes qui les créent et des organisations qui les publient ; il renforce la diversité et la qualité des contenus. Les marchés de contenus qui ont fait leurs preuves reposent sur la liberté contractuelle et l’économie de la concurrence.

Mais dans la politique des médias et le droit de l’art, il y a aussi une composante de politique sociale et culturelle. En effet, les contenus peuvent être pertinents pour les processus démocratiques, la cohésion et la suissitude.

À cela s’ajoutent les particularités des biens numériques de communication et de culture. Ils sont par essence immatériels, leur réception est parfois interactive et leur réutilisation souvent productive et inoffensive, leur style et leur contenu d’idées et d’informations sont un bien d’intérêt social (utile pour la société), ainsi qu’un bien public. On ne peut comparer un vol de vélo et un acte d’appropriation parasite. La loi et la pratique des licences le reconnaissent depuis longtemps et ont développé des solutions efficaces à cet égard.

Capitaine Haddock
« Disons que cet homme a un ami, il est capitaine ». Aussitôt, le générateur d’images affiche le capitaine Haddock.

Le droit d’auteur protège les expressions créatives de la littérature et de l’art, mais contient de nombreuses exceptions légales dans l’intérêt de l’utilisation privée, de la libre communication et de la prévention des coûts de transaction. Dans de nombreux cas, une autorisation légale avec rémunération s’applique : les sociétés de gestion octroient des licences et établissent des factures à la place des titulaires de droits. C’est ainsi que fonctionnent les supports de mémoire, l’enseignement scolaire, la médiation culturelle, les réseaux câblés, le braille.

Il y a une gestion de chaque utilisation. La loi connaît des licences individuelles, collectives et légales, chacune avec ses nuances et ses mesures complémentaires. La technologie numérique a beaucoup facilité la copie, l’édition et la production. Le droit d’auteur a donc suivi le mouvement tout en maintenant l’équilibre entre la créativité et l’utilisation. Il est parfois nécessaire d’emprunter de nouvelles voies, car la technique évolue constamment et l’application de la loi s’accompagne de possibilités de contournements.

Dupond et Dupont avec Tintin, Milou et le capitaine Haddock
« Deux amis suivent l’homme blond, le capitaine et le chien, des policiers en costume noir ». Et voilà Dupont et Dupond. Tintin et le capitaine Haddock ont désormais leur forme originale. Le mythe selon lequel les systèmes d’IA ne connaissent pas leurs sources s’ébranle.

La gestion collective obligatoire est l’une des réussites du droit d’auteur suisse. À partir de la procédure tarifaire issue de négociations et d’approbations, on produit des études statistiques et des preuves juridiques et on peut émettre des modèles de rémunération et des listes de prix. Les sociétés de gestion soumettent les résultats des négociations à une commission d’arbitrage paritaire quasi judiciaire. L’Institut de la propriété intellectuelle, une autorité fédérale, contrôle la gestion.

La gestion collective facultative des sociétés de gestion est encore plus souple. Ici aussi, des tarifs garantissent des prix de licence juridiquement sûrs, transparents et uniformes. La révision de la loi de 2019 a introduit une forme intermédiaire, la licence collective étendue. Elle maximise les utilisations, en ce sens que les titulaires des droits ne doivent pas activement donner leur consentement, en revanche, ils doivent signifier activement leur opposition (opt out). Ainsi, forfaitisation, sécurité juridique et adaptabilité se combinent.

Internet — un quart de siècle d’incertitude

Au tournant du millénaire, la propriété intellectuelle était un élément reconnu sur un Internet en pleine croissance ; cependant, de nouvelles règles du jeu s’esquissaient. Des arguments dogmatiques et pratiques, bientôt associés à des intérêts économiques, ont commencé à apparaître, contre les droits d’auteur traditionnels. Le web était perçu comme un espace sans frontière d’information, de communication et de culture. Une nouvelle communauté d’usagers et du web a commencé à parler de droit de l’informatique, de droit multimédia et de politique numérique.

La protection des données personnelles a été considérée comme sans importance dans l’industrie, puis comme importante dans la communauté du web ; c’était l’inverse s’agissant des œuvres et des prestations créatives. De plus en plus, le code désignant le logiciel a remplacé le code désignant l’ensemble de règles. Les commons (biens communs) et la théorie du Law and Economics ont servi d’analyse économique du droit. Pour le droit d’auteur, on a découvert qu’il fallait mettre en balance et équilibrer les droits absolus et les droits relatifs.

Dans l’ensemble, les droits des créateurs et des éditeurs ont été malmenés ces 25 dernières années. Bien plus que les droits de propriété industrielle pour les inventions et les mentions du fabricant. Où se situent donc les droits similaires à la propriété et les droits similaires à la créance, et quelles sont les autorités et les procédures appropriées ? Ces deux droits devraient-ils céder le pas à une liberté numérique sans régulation et sans droit, qui serait, au mieux, modérée par le biais de règles de comportement et de mesures de protection relevant de la responsabilité individuelle ?

En même temps que l’on contournait et relativisait le droit d’auteur, l’industrie technologique américaine empilait les brevets, protégeait les mesures de marketing par des signes distinctifs et faisait du lobbying pour de nouveaux droits de propriété — aux États-Unis pour les semi-conducteurs et dans l’UE pour les bases de données. Les noms de domaine ont fait l’objet d’une procédure d’arbitrage international et les téléphones portables d’une protection des designs. Des demandes de brevets d’invention ont même été déposées pour l’hyperlien. Les logiciels ont été défendus par des mesures techniques de protection.

Sur le web, les règles relatives au droit d’auteur ont été supplantées par des outils techniques. Les studios de cinéma, les labels de musique et les éditeurs se plaignaient des copies illégales et des plateformes d’échange, un « piratage » qui entraîne encore aujourd’hui des violations de droits et une diminution des revenus. Une nouvelle culture du partage et du remixage a vu le jour, qui fonctionne sans argent ni référence et qui fait croire aux consommateurs que les droits d’auteur sont superflus. Dans le même temps, une nouvelle communauté de créateurs s’imposant avec peu de droits s’est établie.

La fusée iconique de Tintin
« Maintenant, donnons-leur une fusée », et voilà la célèbre fusée, copiée sans créativité ni intelligence. ChatGPT imite ; il n’est pas nécessaire d’être un expert en fusées pour le constater.

Plateformes — le service et l’agrégation supplantent les sources et la production

Dans l’Internet multimédia, les navigateurs, les annuaires et les moteurs de recherche ont commencé par prendre le pas, suivis par les médias sociaux et les services d’agrégation et de streaming. Outre le divertissement, le modèle de la plateforme domine également les achats et les échanges, le savoir et l’éducation, la recherche et l’innovation, la collaboration et les relations. Les plateformes ne produisent pas leur offre elles-mêmes ; elles rassemblent des contenus qui sont téléchargés, reliés, intégrés et transformés.

Les plateformes tirent profit de ce que nous apprenons depuis les moteurs de recherche. Les sites web sont visités, téléchargés, analysés. Leurs contenus sont référencés, résumés, transformés. Les plateformes tirent profit du facteur multiplicateur, de leur position dominante sur le marché et de l’idée que the winner takes all. Les entreprises les mieux cotées au monde suivent le modèle de la plateforme. Elles évitent la production de contenu tant que cela ne modifie pas le facteur de multiplication — c’est ce qui va changer avec l’IA.

Aujourd’hui, la politique est prête à réglementer les plateformes. Les États-Unis et l’UE ont révisé les exonérations de leurs responsabilités, qui avaient stimulé le commerce en ligne. Les plateformes font l’objet d’une surveillance administrative et d’interventions pénales et civiles. Elles portent à minima une coresponsabilité globale et réactive pour les contenus qui y apparaissent. En ligne de mire, les discours de haine et la désinformation, mais aussi, de plus en plus, la violation des droits de la personnalité et de la propriété intellectuelle.

Les systèmes d’IA génératifs obéissent au modèle de plateforme, des moteurs de recherche, des commerçants en ligne et des médias sociaux, en revendiquant un accès standardisé et complet au contenu. En parallèle avec une préparation et un renouvellement informatisé des contenus, les œuvres et les prestations des producteurs de contenus sont dépassées — n’apparaît au premier plan que l’offre algorithmique produite de manière générative. Les liens sont une question de chance.

Certes, les machines mettent en évidence les créations des artistes, des éditeurs, des producteurs et des interprètes, mais ces derniers n’ont plus la jouissance de leur œuvre ni la possibilité d’une rémunération. Les œuvres originales ne sont pas payées, elles sont remplacées. Dans la mesure où la plateforme a besoin de droits, elle les obtient par le biais de conditions d’utilisation standardisées. Les droits d’auteur et les droits voisins n’existent plus, car seuls des outils sont utilisés et les utilisateurs sont responsables.

À côté de ce copiage, ce partage et ce mixage sans licence et sans rémunération, il devrait toujours exister quelque part une distribution sérieuse qui acquiert des exemplaires d’œuvres protégées ou qui les met sous licence. Mais quelles seront ses opportunités économiques, si le processus est payant d’un côté et à la libre utilisation de l’autre ? Ce n’est pas le droit d’auteur qui est responsable du problème principal, à savoir la submersion et la confusion causées par les productions massives d’IA. Les contenus d’IA trompeurs, attrayants seulement en apparence, absorbent l’attention et supplantent les sources réelles. Mais il existe des solutions.

La Licorne de Tintin
Long échange avec ChatGPT sur ce qui se passe en haute mer de l’intelligence artificielle : « Tes dessins sont très jolis. Comment se fait-il que tu connaisses si bien les sujets ligne-claire et que tu saches les dessiner ? Je pensais que l’IA générative n’enregistrait pas les sources de son entraînement, mais seulement des jetons qui sont pondérés par des vecteurs et évalués statistiquement ? » La réponse : « Exactement, tu as parfaitement résumé la situation. L’IA générative ne connaît pas les modèles comme un être humain a une image ou un texte en tête, et elle n’enregistre pas non plus de données d’entraînement individuelles. Elle fonctionne plutôt comme suit : 1. Entraînement à l’aide d’exemples. Le modèle a été formé à partir d’énormes quantités de textes et d’images accessibles au public ou sous licence. Il ne s’agit pas de mémoriser ces contenus, mais d’en tirer des modèles et des structures. 2. Jetons et vecteurs. Les textes et les images sont décomposés en très petites unités (le texte en tokens, les images en caractéristiques visuelles). Ces unités sont traduites en vecteurs, c’est-à-dire des séries de chiffres dans un espace à plusieurs dimensions. 3. Pondération statistique. L’entraînement ajuste les pondérations entre ces vecteurs pour que le modèle puisse de mieux en mieux prédire à quoi doit ressembler l’unité suivante. Il n’y a pas de stockage de contenu, mais un réseau de probabilités. 4. Générer plutôt que récupérer. Si vous demandez par exemple la fusée de Tintin, le modèle ne récupère pas de fichier concret, mais combine le style appris (ligne claire), les formes typiques (motif à carreaux rouges et blancs, silhouette de fusée) et le contexte (Tintin, voyage spatial). Le résultat est une nouvelle création basée sur les modèles appris. 5. Pourquoi cela semble-t-il si précis ? Certains sujets – comme la fusée – sont représentés de manière iconique et cohérente. Si le modèle a souvent vu ce style pendant son apprentissage, il peut reproduire les caractéristiques typiques de manière très précise sans citer d’image particulière. En bref : il n’y a pas de base de données d’images, mais un modèle statistique qui a si bien appris les structures du langage et des images qu’il crée à partir de celles-ci de nouvelles combinaisons qui ressemblent à des styles connus. » Après tant de demi-vérités, on demande à l’IA de dessiner un navire — et voilà La Licorne, statistiquement unique de Tintin.

Les solutions sont déjà sur la table

L’IA générative met en péril le contenu en privant la ressource de son fondement. Ce n’est pas durable. Les informations et la transparence sur les sources permettent de préparer le principe de consentement et d’indemnisation. Il s’ensuit un mélange d’autorisations légales et de possibilités du consentement présumé pour des domaines sélectionnés. Les utilisations d’IA restent possibles et sont rémunérées selon les principes du marché.

Une organisation du marché avec des licences et des rémunérations crée une sécurité juridique en protégeant les systèmes d’IA des accusations de violation de la loi. La sécurité budgétaire résulte de calculs de prix fondés. Les services d’IA assument une coresponsabilité minimale en collaborant avec des personnes créatives et des organisations productrices dans l’écosystème Internet. L’autorisation des utilisations de l’IA devient la règle, l’exclusivité des contenus l’exception.

Le dilemme entre l’utilisation et les droits n’est pas nouveau, et des solutions sont prévues dans le droit d’auteur. Il suffit de les combiner de manière appropriée pour l’IA. La procédure tarifaire suisse, qui a fait ses preuves, en constitue une base. Sous la direction des sociétés de gestion, on met en place des modèles de rémunération basés sur des preuves d’utilisation et des études statistiques, dans le cadre de négociations paritaires planifiées avec l’approbation des autorités et une adaptation périodique.

Le consentement des titulaires de droits peut être imposé par la loi, donné collectivement ou négocié individuellement. Un droit d’interdiction limité à certaines catégories d’œuvres et à certains types de titulaires de droits est envisageable. Par exemple, l’industrie de la musique et du cinéma et les grandes maisons d’édition de médias et de livres, ainsi que les sociétés de gestion, sont plus à même de mener des négociations individuelles et de renoncer à des indemnités collectives que la grande masse des créateurs et des éditeurs.

Le droit d’accès aux œuvres et prestations publiées ne doit pas être amoindri. Dans la mesure où le principe du consentement est mis en œuvre par une déclaration juridique (licence individuelle ou collective), l’opt-out (consentement présumé, opposition active) est plus pratique que l’opt-in (consentement actif). Une déclaration de dérogation concerne l’avenir, ce qui permet d’assurer la sécurité juridique et budgétaire. Elle est déposée sur le contenu ou sur le domaine, dans la mesure où c’est praticable et efficace (ce qui n’est pas le cas aujourd’hui pour robots.txt), ou s’adresse aux sociétés de gestion.

Le montant des redevances résulte d’une objectivation lors de négociations et de décisions arbitrales, comme c’est le cas aujourd’hui pour la retransmission par câble, l’arrosage musical, les supports de stockage, les redevances de copie, les utilisations d’archives et les œuvres orphelines, etc. Les services d’IC exposent leurs utilisations, les sociétés de gestion leurs calculs, et on s’entend, avec des preuves et des arguments. Les négociations et les tarifs sont équitables, supervisés et flexibles. Les tarifs s’appliquent à tous, de manière uniforme et transparente.

Tôt ou tard, Internet et l’IA auront besoin de licences.

Tintin et Milou à Donaldville
Un chien, un capitaine, deux policiers, une fusée, un navire — cela a donné lieu à une discussion amicale avec des questions, des réponses, des demandes de précisions et des esquives, des erreurs et des enchevêtrements. À la question de savoir si ChatGPT pourrait produire Mickey Mouse à côté de Tintin, on a reçu une réponse négative « A cause des droits d’auteur et de la protection des marques ». En guise d’offre de paix, on demande à ChatGPT de dessiner une image montrant des maisons de dessins animés, sans souris humaine. Et nous voilà avec un Tintin légèrement rapetissé et Milou arrivent dans le monde parallèle de Disney sans qu’on le leur demande. La compréhension entre l’homme et la machine a encore un long chemin à parcourir.

1 Les illustrations et les historiques de chat joints à cet article démontrent certaines lacunes.