Fermer

avril 9, 2022

Le nouveau générateur d'images d'OpenAI suscite à la fois enthousiasme et peur


OpenAI a dévoilé un nouveauAUoutil qui transforme le texte en images – et les résultats sont époustouflants.

Baptisé DALL-E 2, le système succède àun modèle dévoilé l'an dernier . Alors que son prédécesseur a généré des résultats impressionnants, la nouvelle version est une mise à jour majeure.

Ce tableau dans le style de Claude Monet illustre les améliorations. Crédit : OpenAI

DALL-E-2 ajoute une meilleure compréhension textuelle, une génération d'images plus rapide et une résolution quatre fois supérieure.

"Lors de l'approche de DALL-E 2, nous nous sommes concentrés sur l'amélioration de la qualité de la résolution d'image et de la latence, plutôt que sur la construction d'un système plus grand", a déclaré Aditya Ramesh, chercheur à OpenAI, à TNW.

Le nouvel outil introduit également deux fonctionnalités supplémentaires : les réinterprétations d'images existantes et une fonction d'édition appelée inpainting.

L'inpainting apporte des modifications à une image existante en analysant une légende en langage naturel.

Il peut ajouter et supprimer des composants, tout en intégrant les modifications attendues des ombres, des reflets et des textures.

 DALL·E 2 peut apporter des modifications réalistes aux images existantes à partir d'une légende en langage naturel.  Il peut ajouter et supprimer des éléments tout en tenant compte des ombres, des reflets et des textures.
Dans cet exemple, un corgi est placé dans l'emplacement choisi par l'utilisateur. Crédit : OpenAI

DALL·E 2 a été formé sur des paires d'images et leurs légendes correspondantes, ce qui a enseigné au modèle les relations entre les images et les mots.

De nouvelles images sont générées par un processus appelé diffusion.

Cela commence par un motif de points aléatoires. Le système transforme ensuite progressivement le motif en une image lorsqu'il reconnaît des aspects spécifiques de cette image.

 

DALL-E 2 peut combiner des concepts, des attributs et des styles dans ses créations.
DALL-E 2 peut combiner des concepts, des attributs et des styles dans ses créations. Crédit : OpenAI

Certaines des créations de DALL-E 2 semblent presque trop belles pour être vraies. Pourtant, les chercheurs affirment que le système a tendance à générer des images visuellement cohérentes pour la plupart des sous-titres que les gens essaient.

Les images ci-dessus d'un astronaute, par exemple, ont été sélectionnées à partir d'un ensemble de neuf produits par le modèle. Prafulla Dhariwal, chercheur à OpenAI, a déclaré que les résultats sont généralement cohérents :

Parfois, il peut être utile d'itérer avec le modèle dans une boucle de rétroaction en modifiant l'invite en fonction de son interprétation de la précédente ou en essayant un style différent comme « une peinture à l'huile », « de l'art numérique », « une photo », 'un emoji', etc. Cela peut être utile pour obtenir le style ou l'esthétique souhaité.

Les fraudeurs en herbe notent que la moins célèbre Adele Bloch-Bauer I de Klimt s'est vendue pour 135 millions de dollars en 2006.
Une réinvention du "Baiser" de Gustav Klimt. Les fraudeurs en herbe se rappelleront peut-être qu'un tableau de Klimtvendu 150 millions de dollarsen 2016. Crédit : OpenAI

Les utilisations potentielles de DALL-E 2 sont vastes.

Les graphistes, les développeurs d'applications, les médias, les architectes, les illustrateurs commerciaux et les concepteurs de produits pourraient tous utiliser l'outil pour l'inspiration, les nouvelles créations et l'édition.

Les artistes commerciaux peuvent être inquiets quant à leurs perspectives d'emploi futures. Ramesh reconnaît que de nombreux emplois pourraient changer :

Nous avons vu l'IA être un bon outil pour les personnes dans l'espace créatif. Par exemple, à mesure que les logiciels de retouche photo sont devenus plus puissants et accessibles, ils ont permis à davantage de personnes d'entrer dans le domaine de la photographie. Ces dernières années, nous avons également vu des artistes utiliser l'IA pour créer de nouveaux types d'art.

Il est difficile de prédire l'avenir, mais nous savons que l'IA aura un impact sur les emplois tout comme les ordinateurs personnels. La nature de nombreux emplois va changer, des emplois qui n'existaient pas auparavant seront créés et d'autres pourraient être supprimés.

 

Le système n'a pas encore été rendu public. Le PDG d'OpenAI, Sam Altman, espère lancer le produit cet été, mais les chercheurs veulent d'abord étudier les risques.

Ils prévoient d'intégrer des mesures de protection qui empêchent le système de générer contenu trompeur et autrement préjudiciable.

De plus, DALL·E 2 hérite de divers biais de ses données d'entraînement — et ses résultats renforcent parfois les stéréotypes sociétaux.

L'équipe a déjà supprimé le contenu explicite des données de formation et interdit le contenu violent, haineux et pour adultes dans leurpolitique de contenu.

Si les filtres identifient des images et des invites de texte qui enfreignent les règles, le système ne générera pas les sorties.Des systèmes de surveillance automatisés et humains ont également été mis en place comme protection contre les abus.

 

Altman pense que le mécanisme de DALL-E pourrait changer la façon dont nous interagissons avec les machines.

"C'est un autre exemple de ce que je pense être une nouvelle tendance d'interface informatique : vous dites ce que vous voulez en langage naturel ou avec des indices contextuels, et l'ordinateur le fait", a-t-il déclaré dansun article de blog.

DALL-E peut également améliorer notre compréhension de la façon dont l'IA voit le monde. OpenAI espère que cela les aidera à créer des systèmes qui profitent à l'humanité – et ne sont pas manipulés pour favoriser la haine et la tromperie.






Source link