février 27, 2024

La tarte américaine régurgitée ajoute un goût aigre au bœuf protégé par le droit d’auteur de GenAI

Don McClean a toujours dû partager « American Pie ». Depuis sa sortie en 1971, la chanson à succès est réapparue dans des reprises de Madonna, des parodies de Weird Al Yankovic, des sérénades de Présidents sud-coréenssous-intrigues dans Films Marvelet même la CIA techniques de torture. Mais de nos jours, les principaux imitateurs de McClean ne sont même pas humains.

Vous pouvez interroger vous-même les coupables. Chargez simplement ChatGPT d’OpenAI et invitez le générateur de texte à « écrire les paroles d’une chanson sur le jour où la musique est morte ». Invariablement, la sortie de l’outil crachera des paroles ou des thèmes de « American Pie » – et parfois le même refrain.

Cette régurgitation émerge malgré l’invitation à ne pas commander « American Pie » ou l’histoire qui l’a inspiré – l’accident d’avion de 1959 qui a tué les pionniers du rock and roll Buddy Holly, Ritchie Valens et The Big Bopper.

C’est une preuve supplémentaire que ChatGPT ne peut pas créer rien vraiment original. Au lieu de cela, le système est plus proche d’un algorithme de remix. La véritable créativité réside dans ses données de formation, qui sont supprimées du Web sans consentement.

Les dernières rumeurs sur la scène technologique européenne, une histoire de notre sage vieux fondateur Boris et un art de l’IA discutable. C’est gratuit, chaque semaine, dans votre boîte de réception. S’inscrire maintenant!

Dr Max Little, un IA expert de l’Université de Birmingham, décrit l’outil comme une « machine à contrefaire ». Il se moque de toute suggestion selon laquelle les grands modèles linguistiques (LLM) sont créatifs de manière indépendante.

« Ce n’est pas le cas car ils ne peuvent rien produire du tout sans être formés sur des quantités astronomiques de texte », a déclaré Little à TNW.

C’est une approche omniprésente dans l’IA générative. Rigoureux avoir montré que les LLM peuvent régurgiter de grandes parties de leur texte de formation original, y compris des paragraphes textuels de livres et de poèmes. Pas plus tard que la semaine dernière, un rapport trouvé que 60 % des résultats GPT-3.5 d’OpenAI contenaient du plagiat.

Le problème ne s’applique pas non plus uniquement aux générateurs de texte. Des images de Stable Diffusion à la musique de Google Lyria et au code de GitHub Copilot, les outils GenAI dans toutes les modalités peuvent produire des sorties d’une qualité époustouflante – et d’une étrange familiarité.

Leur mimétisme constitue une menace existentielle pour les industries créatives. Cela constitue également une menace pour l’industrie GenAI.

Une capture d'écran d'OpenAI régurgitant les paroles d'American Pie.

Les artistes affirment que la marche incessante de GenAI piétine leurs conventions en matière de droits d’auteur. Sans surprise, les entreprises technologiques ne sont pas d’accord. Leurs défenses invoquent généralement la doctrine du « fair use ».

Les détails varient selon les juridictions, mais un principe central de « l’utilisation équitable » est que les résultats ont un objectif et un caractère « transformateurs ». Plutôt que de simplement copier ou reproduire leurs données d’entraînement, ils ajoutent quelque chose de nouveau et de significatif. C’est du moins ce que prétendent les dirigeants de GenAI devant les tribunaux.

Stability AI, la startup basée au Royaume-Uni à l’origine du générateur d’images Stable Diffusion, a fait cet argument l’année dernière au US Copyright Office. OpenAI a également cité la doctrine dans une récente requête visant à rejeter deux recours collectifs.

Plusieurs auteurs, dont la comédienne Sarah Silverman et la romancière canadienne Mona Awad, avaient poursuivi l’entreprise pour avoir prétendument formé des LLM sur des ensembles de données acquis illégalement.

Parce que leur travail était intégré à ChatGPT, ils ont déclaré que l’outil lui-même était une « œuvre dérivée » couverte par le droit d’auteur.

OpenAI a rejeté cette affirmation. Selon l’équipe juridique de la startup, « l’utilisation par des innovateurs de matériels protégés par le droit d’auteur de manière transformatrice ne viole pas le droit d’auteur ». Un juge a également rejeté l’allégation selon laquelle chaque sortie de ChatGPT est dérivée.

Mais lorsque les résultats sont identiques à leurs données de formation, les eaux juridiques commencent à se brouiller. La reproduction est une base douteuse pour la transformation. C’est aussi un phénomène courant.

Outre American Pies, les outils GenAI ont régurgité scènes de film, personnages de dessins animés, jeux vidéo, conceptions de produitset code.

Ils ont également copié des journaux, ce qui pourrait conduire à un tournant.

« Nature transformatrice », mon œil, @OpenAI.@Disney je ne vais pas le voir de cette façon. https://t.co/t0A0lfM6f9 pic.twitter.com/0XX51yQjN2
– Gary Marcus @ AAAI 2024 (@GaryMarcus) 29 décembre 2023

En décembre, le New York Times a poursuivi OpenAI et son partenaire commercial Microsoft. Le média allègue que l’utilisation non autorisée de ses articles dans le cadre de la formation viole les droits de propriété intellectuelle (PI). Experts juridiques décrire le procès est considéré comme « le meilleur cas à ce jour alléguant que l’IA générative constitue une violation du droit d’auteur ».

Les avocats du New York Times ont souligné la « similarité substantielle » entre le contenu du média et les résultats de ChatGPT. Pour étayer leur affirmation, ils ont fourni 100 exemples du robot reproduisant les reportages du journal.

« Dans chaque cas, nous observons que le résultat de GPT-4 contient de grandes étendues identiques au texte réel de l’article du New York Times », ont-ils déclaré dans leur plainte.

Leur poursuite remet également en cause un autre aspect clé du « fair use » : l’impact sur le marché de l’œuvre originale.

Un exemple d'IA générative régurgitant des données d'entraînement, montrant le texte original de l'article du New York Times à côté de la copie exacte produite par OpenAI — Le New York Times a créé les copies en utilisant de vrais articles pour lancer le modèle GPT-4 d’OpenAI.

Selon les plaignants, OpenAI non seulement reproduit le contenu du New York Times, mais exploite également le contenu pour rivaliser sur les mêmes marchés. Dans le même temps, l’entreprise détourne le trafic du site Internet du journal.

Pour preuve, ils citent Naviguer avec Bing, une fonctionnalité premium optimisée par la même technologie que ChatGPT. L’outil peut résumer les recommandations de produits faites par les évaluateurs du NYT. En offrant ces informations aux utilisateurs, ont déclaré les avocats, OpenAI supprime leur incitation à consulter l’article original. Cela signifie également qu’ils ne cliquent pas sur les liens de produits qui génèrent des revenus pour l’éditeur.

« Il n’y a rien de « transformateur » dans le fait d’utiliser le contenu du Times sans paiement pour créer des produits qui remplacent le Times et lui volent des audiences », déclare la plainte.

Naturellement, les géants de GenAI ne sont pas d’accord.

OpenAI a répondu au procès dans un ton de reproche article de blog. L’entreprise soupçonne que Le NYT a soit « demandé au modèle de régurgiter » soit « sélectionné ses exemples parmi de nombreuses tentatives ».

Industrie les initiés sont d’accord. Daniel Jeffries, responsable du renseignement de Stability AI, a décrit les invites du procès comme suit : «manifestement manipulé. Il dit les copies ont été « presque certainement » produites via une technique appelée génération augmentée de récupération (RAG), qui optimise les sorties LLM en accédant à des sources d’informations externes.

« Ils risquent de détruire les industries créatives qui dépendent du droit d’auteur.

Quelle que soit la méthode, OpenAI a déclarél’égurgitation est un « bug rare » que l’entreprise « s’efforçait d’atteindre zéro ». Mais les critiques remettent en question les pouvoirs des mécanismes de prévention.

Peu de points sur la reproduction par ChatGPT de « American Pie ».

« Parfois, une violation textuelle directe du droit d’auteur… est détectée par le algorithme et un avertissement est présenté », dit-il.

« Néanmoins, l’algorithme peut toujours être facilement amené à produire un résultat clairement plagié à partir des données d’entraînement, car dans ce cas, le thème des paroles est toujours l’événement de crash Holly/Valens/Bopper 1959. »

Aussi rare qu’elle puisse être dans ChatGPT, la régurgitation est répandue dans les outils GenAI. Lorsqu’ils dupliquent manifestement leurs données de formation et se font ensuite concurrence sur le même marché, les fondements de l’utilisation équitable semblent fragiles.

Ben Maling, associé directeur du cabinet d’avocats en propriété intellectuelle EIP, surveille de près cette instabilité. Des sorties qui sont Les copies textuelles ou dérivées de leurs données de formation menacent « une autre violation potentielle du droit d’auteur », prévient-il. Le système ou l’utilisateur final pourraient être responsables des dommages.

« Beaucoup de grands fournisseurs d’IA sont tellement inquiets du potentiel de peur des clients qu’ils proposent [assurances] promettant de les défendre contre les actions en contrefaçon », a déclaré Maling à TNW par e-mail.

Ce n’est pas la seule preuve d’inquiétude chez OpenAI. Le mois dernier, le porte-drapeau de GenAI a déclaré au Parlement britannique que c’est « impossible » de créer IA des outils comme ChatGPT sans matériel protégé par le droit d’auteur. En quête de protection juridique, l’entreprise a demandé une dérogation spéciale pour cette pratique.

La demande a accru les craintes concernant les données d’entraînement régurgitées.

Si les politiciens exemptaient OpenAI, la startup « serait libre de copier et de remixer n’importe quel texte original de n’importe où et à tout moment », dit Little. En conséquence, ils risquent de « détruire les industries créatives dont l’existence dépend du droit d’auteur ».

La régurgitation de GenAI n’est pas nécessairement terminale. Les analystes ont prescrit de nombreux traitements pour cette affliction embarrassante.

L’un a été créé par Ed Newton-Rex, l’ancien vice-président de l’audio chez Stability AI. Au cours de son passage au sein de la startup, Newton-Rex a développé Stable Audio, un générateur de musique formé sur du contenu sous licence. L’homme de 36 ans souhaite que d’autres entreprises suivent son exemple.

« Vous pourriez ralentir un peu l’industrie de l’IA, car elle devrait consacrer plus de temps, plus d’argent et plus d’efforts aux licences », a déclaré Newton-Rex à TNW. « Mais ce faisant, franchement, vous sauveriez les industries créatives. Je pense qu’il y a ici une menace existentielle.

Les artistes confrontés à cette menace ont appliqué un antidote plus extrême : le poison.

La méthode de livraison la plus populaire est un outil appelé Morelle noire. Ce logiciel « empoisonne » les données d’entraînement en appliquant des modifications invisibles aux images. Lorsque les entreprises suppriment les créations sans consentement, elles peuvent perturber les résultats du modèle d’IA.

La méthode s’est avérée populaire. Wdans les cinq jours suivant la mise en ligne, Nightshade a dépassé les 250 000 téléchargements.

Néanmoins, Little s’attend à ce que l’IA continue de régurgiter American Pies. Il doute que les outils formés sur du contenu créatif récupéré puissent un jour échapper au problème du plagiat. « Parce que, de par leur conception », dit-il, « ce ne sont que des algorithmes qui remixent leurs données d’entraînement. »

L’un des thèmes de la conférence TNW de cette année est Ren-AI-ssance : la renaissance alimentée par l’IA. Si vous souhaitez approfondir tout ce qui concerne l’intelligence artificielle, ou simplement vivre l’événement (et saluer notre équipe éditoriale), nous avons quelque chose de spécial pour nos fidèles lecteurs. Utilisez le code TNWXMEDIA à la caisse pour obtenir 30 % de réduction sur votre carte d’affaires, passe investisseur ou des packages de démarrage (Amorcer & Augmenter).

Source link

Blog ARC Optimizer

février 27, 2024

La tarte américaine régurgitée ajoute un goût aigre au bœuf protégé par le droit d’auteur de GenAI

Articles similaires

Blog ARC Optimizer

Partager :

Articles similaires