Fermer

avril 9, 2024

OpenAI a peut-être utilisé des vidéos YouTube pour la formation en IA

OpenAI a peut-être utilisé des vidéos YouTube pour la formation en IA


D’où proviennent les données d’entraînement à l’IA ?

Un rapport de Le New York Times a révélé vendredi qu’OpenAI aurait pu former des modèles d’IA sur les transcriptions de vidéos YouTube et que Google aurait peut-être fait la même chose.

Le rapport révèle que, dans la recherche de nouvelles données numériques pour former son nouveau système d’IA plus intelligent, les chercheurs d’OpenAI ont créé une solution de contournement appelée Whisper, qui pourrait prendre des vidéos YouTube et les transcrire en texte qui pourrait ensuite être alimenté en tant que nouvelles données de formation d’IA – pour une IA de nouvelle génération plus conversationnelle.

Le processus de développement de GPT-4, le modèle d’IA puissant derrière le dernier chatbot ChatGPT d’OpenAI, a récupéré plus d’un million d’heures de vidéos YouTube transcrites par Whisper, selon le NY Times’ sources.

En rapport: OpenAI retient la sortie de son nouveau générateur de voix AI

Les temps rapporte que les employés d’OpenAI ont eu des conversations sur la façon dont les données de formation à la transcription YouTube pourraient potentiellement enfreindre les règles de YouTube, mais OpenAI a quand même décidé d’aller de l’avant avec la conviction que la formation de l’IA avec les vidéos était une utilisation équitable.

La connaissance de l’origine des données de formation s’est étendue jusqu’à la haute direction, selon Les tempsle président d’OpenAI, Greg Brockman, aurait même aidé à collecter des vidéos.

Le journal de Wall Street’Joanna Stern interviewé Le mois dernier, Mira Murati, CTO d’OpenAI, lui a demandé quelles données avaient été utilisées pour former l’un des produits les plus récents d’OpenAI : un outil appelé Sora qui génère des vidéos basées sur des invites textuelles.

En rapport: Les auteurs poursuivent OpenAI parce que ChatGPT est trop « précis »

« Nous avons utilisé des données accessibles au public et des données sous licence », a déclaré Murati. Lorsque Stern a demandé : « Alors, les vidéos sur YouTube ? Murati a répondu: « En fait, je n’en suis pas sûr. »

Lorsque Stern a en outre demandé « Vidéos de Facebook, Instagram ? » Murati a déclaré: « Vous savez, si elles étaient accessibles au public, accessibles au public, il pourrait y avoir des données, mais je n’en suis pas sûr. Je n’en suis pas sûr. »

Neal Mohan, PDG de YouTube dit la semaine dernière, si OpenAI utilisait des vidéos YouTube pour former Sora, cela constituerait une « violation flagrante » des conditions d’utilisation de YouTube.

Les conditions d’utilisation « ne permettent pas de télécharger des éléments tels que des transcriptions ou des extraits vidéo », Mohan dit Emily Chang, animatrice de Originaux Bloomberg.

Pourtant, cinq sources ont déclaré Les temps que Google a fait la même chose qu’OpenAI, en transcrivant prétendument des vidéos YouTube pour générer un nouveau texte de formation pour ses modèles d’IA, ce qui constitue une violation potentielle de la loi sur le droit d’auteur.

Google possède YouTube et a dit Les temps que son IA est « formée sur certains contenus YouTube » comme le permettent ses accords avec les créateurs.

En rapport: Getty Images a entamé une procédure judiciaire contre une société d’art génératif d’IA pour violation du droit d’auteur

Les poursuites judiciaires concernant la formation de l’IA avec du matériel protégé par le droit d’auteur se sont généralisées ces dernières années, avec auteurs comme Paul Tremblay et Sarah Silverman alléguant que leurs livres faisaient partie d’ensembles de données utilisés pour entraîner l’IA – sans leur consentement.

Les avocats de ces poursuites, Joseph Saveri et Matthew Butterick, État sur leur site Web, l’IA générative n’est que « l’intelligence humaine, reconditionnée et séparée de ses créateurs ».

Plus de 15 000 auteurs signé une lettre L’année dernière, il a demandé aux PDG de grandes entreprises technologiques, notamment ceux d’OpenAI, Google, Microsoft, Meta et IBM, d’obtenir le consentement des écrivains avant de former l’IA avec leur travail et leur crédit et de les rémunérer.

Il n’y a pas que les auteurs : les musiciens ressentent également l’impact de l’IA. Des artistes comme Billie Eilish et Jon Bon Jovi ont signé la semaine dernière une lettre ouverte accusant les grandes entreprises technologiques d’utiliser leur travail pour former des modèles sans autorisation ni compensation.

« Ces efforts visent directement à remplacer le travail des artistes humains par des quantités massives de « sons » et d' »images » créés par l’IA, qui diluent considérablement les redevances versées aux artistes », indique la lettre. déclaré.

Le Tennessee est devenu le premier état pour adopter une législation protégeant les artistes contre les deepfakes, ou les versions clonées et manipulées de leurs voix, le mois dernier.

En rapport: Le Tennessee vient d’adopter une nouvelle loi pour protéger les musiciens d’une menace croissante de l’IA




Source link