Fermer

février 28, 2024

Qu’est-ce que Sora ? Le nouveau système d’IA générative d’OpenAI

Qu’est-ce que Sora ?  Le nouveau système d’IA générative d’OpenAI


Ce mois-ci, OpenAI a annoncé un nouveau système d’IA générative nommé Sora, qui produit de courtes vidéos à partir d’invites textuelles. Bien que Sora ne soit pas encore accessible au public, la haute qualité des exemples de résultats publiés jusqu’à présent a provoqué à la fois excité et concerné réactions.

Le exemples de vidéos publié par OpenAI, qui, selon la société, ont été créés directement par Sora sans modification, affichent des sorties d’invites telles que « une vidéo photoréaliste en gros plan de deux navires pirates se battant alors qu’ils naviguent dans une tasse de café » et « des images historiques de la Californie pendant la médaille d’or ». se précipiter ».

À première vue, il est souvent difficile de dire qu’ils sont générés par IAgrâce à la haute qualité des vidéos, des textures, de la dynamique des scènes, des mouvements de caméra et un bon niveau de cohérence.

Le directeur général d’OpenAI, Sam Altman, a également publié sur X (anciennement Twitter) des vidéos générées en réponse aux invites suggérées par les utilisateurs, pour démontrer les capacités de Sora.

Comment fonctionne Sora ?

Le <3 de la technologie européenne

Les dernières rumeurs sur la scène technologique européenne, une histoire de notre sage vieux fondateur Boris et un art de l’IA discutable. C’est gratuit, chaque semaine, dans votre boîte de réception. S’inscrire maintenant!

Sora combine les fonctionnalités des outils de génération de texte et d’images dans ce qu’on appelle un «modèle de transformateur de diffusion

Les transformateurs sont avant tout un type de réseau neuronal introduit par Google en 2017. Ils sont surtout connus pour leur utilisation dans de grands modèles linguistiques tels que ChatGPT et Google Gemini.

Les modèles de diffusion, en revanche, constituent la base de nombreux générateurs d’images d’IA. Ils fonctionnent en commençant par un bruit aléatoire et en itérant vers une image « propre » qui correspond à une invite de saisie.

Une série d'images montrant une image d'un château sortant de la statique.
Les modèles de diffusion (dans ce cas, Stable Diffusion) génèrent des images à partir du bruit sur de nombreuses itérations. Diffusion stable / Benlisquare / Wikimédia, CC BY-SA

Une vidéo peut être réalisée à partir d’une séquence de telles images. Or, dans une vidéo, la cohérence et l’homogénéité entre les images sont essentielles.

Sora utilise l’architecture du transformateur pour gérer les relations entre les images. Alors que les transformateurs ont été initialement conçus pour trouver des modèles dans les jetons représentant du texte, Sora utilise à la place des jetons représentant petites parcelles d’espace et de temps.

En tête du peloton

Sora n’est pas le premier modèle texte-vidéo. Les modèles antérieurs incluent Émeu par Meta, Génération 2 par piste, Diffusion vidéo stable par Stability AI, et récemment Lumière par Google.

Lumière, sorti il ​​y a seulement quelques semaines, revendiqué pour produire une meilleure vidéo que ses prédécesseurs. Mais Sora semble être plus puissant que Lumière à au moins certains égards.

Sora peut générer des vidéos avec une résolution allant jusqu’à 1920 × 1080 pixels et dans une variété de formats d’image, tandis que Lumiere est limité à 512 × 512 pixels. Les vidéos de Lumière durent environ 5 secondes, tandis que Sora réalise des vidéos jusqu’à 60 secondes.

Lumiere ne peut pas créer de vidéos composées de plusieurs plans, contrairement à Sora. Sora, comme d’autres modèles, serait également capable d’effectuer des tâches de montage vidéo telles que la création de vidéos à partir d’images ou d’autres vidéos, la combinaison d’éléments de différentes vidéos et l’extension de vidéos dans le temps.

Les deux modèles génèrent des vidéos globalement réalistes, mais peuvent souffrir d’hallucinations. Les vidéos de Lumière peuvent être plus facilement reconnues comme étant générées par l’IA. Les vidéos de Sora semblent plus dynamiques, avec plus d’interactions entre les éléments.

Cependant, dans de nombreux exemples de vidéos, des incohérences deviennent apparentes après une inspection minutieuse.

Des applications prometteuses

Le contenu vidéo est actuellement produit soit en filmant le monde réel, soit en utilisant des effets spéciaux, deux méthodes qui peuvent s’avérer coûteuses et longues. Si Sora devient disponible à un prix raisonnable, les gens pourraient commencer à l’utiliser comme logiciel de prototypage pour visualiser des idées à un coût bien inférieur.

D’après ce que nous savons des capacités de Sora, il pourrait même être utilisé pour créer de courtes vidéos pour certaines applications dans les domaines du divertissement, de la publicité et de l’éducation.

OpenAI document technique à propos de Sora s’intitule « Modèles de génération vidéo en tant que simulateurs mondiaux ». L’article soutient que des versions plus grandes de générateurs vidéo comme Sora pourraient être « des simulateurs capables du monde physique et numérique, ainsi que des objets, des animaux et des personnes qui y vivent ».

Si cela est exact, les versions futures pourraient avoir des applications scientifiques pour des expériences physiques, chimiques et même sociétales. Par exemple, on pourrait tester l’impact de tsunamis de différentes tailles sur différents types d’infrastructures – et sur la santé physique et mentale des personnes à proximité.

Atteindre ce niveau de simulation est très difficile, et certains experts affirment qu’un système comme Sora est fondamentalement incapable de le faire.

Un simulateur complet devrait pouvoir calculer les réactions physiques et chimiques aux niveaux les plus détaillés de l’univers. Cependant, simuler une approximation approximative du monde et réaliser des vidéos réalistes à l’œil humain pourrait être à la portée des années à venir.

Risques et préoccupations éthiques

Les principales préoccupations autour d’outils comme Sora tournent autour de leur impact sociétal et éthique. Dans un monde déjà en proie à la désinformationdes outils comme Sora peuvent aggraver les choses.

Il est facile de voir comment la capacité de générer une vidéo réaliste de n’importe quelle scène que vous pouvez décrire pourrait être utilisée pour diffuser de fausses nouvelles convaincantes ou jeter le doute sur des images réelles. Cela peut mettre en danger les mesures de santé publique, être utilisé pour influencer les élections ou même alourdir le système judiciaire. fausses preuves potentielles.

Les générateurs vidéo peuvent également permettre de menacer directement les individus ciblés, via des deepfakes, en particulier les pornographiques. Ces événements pourraient avoir de terribles répercussions sur la vie des personnes touchées et de leurs familles.

Au-delà de ces préoccupations, se posent également les questions de droit d’auteur et de propriété intellectuelle. Les outils d’IA générative nécessitent de grandes quantités de données pour la formation, et OpenAI n’a pas révélé d’où proviennent les données de formation de Sora.

Les grands modèles de langage et générateurs d’images ont également été critiqués pour cette raison. Aux États-Unis, un un groupe d’auteurs célèbres a poursuivi OpenAI sur une éventuelle mauvaise utilisation de leurs matériaux. L’affaire soutient que les grands modèles linguistiques et les entreprises qui les utilisent volent le travail des auteurs pour créer du nouveau contenu.

Ce n’est pas la première fois de mémoire récente que la technologie devance la loi. Par exemple, la question des obligations des plateformes de médias sociaux en matière de modération du contenu a suscité un débat houleux ces dernières années, dont une grande partie tournait autour Article 230 du Code américain.

Bien que ces préoccupations soient réelles, nous ne nous attendons pas, sur la base de l’expérience passée, à ce qu’elles arrêtent le développement de la technologie de génération vidéo. OpenAI dit il « prend plusieurs mesures de sécurité importantes » avant de rendre Sora accessible au public, notamment en travaillant avec des experts en « désinformation, contenu haineux et préjugés » et en « créant des outils pour aider à détecter les contenus trompeurs ».

Wahid Pooryousefdoctorant en Interaction Homme Machine, Université Monash et Lonnie Besançonprofesseur adjoint en visualisation de données, Université de Linköping

Cet article est republié à partir de La conversation sous licence Creative Commons. Lis le article original.






Source link