Microsoft publié un document de recherche publié cette semaine mettant en lumière un nouveau modèle d’IA appelé VASA-1 qui peut transformer une seule image et un clip audio d’une personne en une vidéo réaliste d’elle en synchronisation labiale – avec des expressions faciales, des mouvements de tête, etc.
Le modèle d’IA a été formé sur des images générées par l’IA à partir de générateurs tels que DALL·E-3, que les chercheurs ont ensuite superposées à des clips audio. Les résultats sont des images transformées en vidéos de visages parlants.
Les chercheurs se sont appuyés sur la technologie de concurrents tels que Piste et Nvidiamais état dans le journal que leur méthode de faire les choses est de meilleure qualité, plus réaliste et « surpasse considérablement » les méthodes existantes.
En rapport: Le générateur d’images Firefly d’Adobe a été partiellement formé sur les images IA de Midjourney
Les chercheurs ont déclaré que le modèle peut enregistrer un son de n’importe quelle longueur et générer un visage parlant conformément au clip.
La seule image expérimentée par les chercheurs qui n’était pas générée par l’IA était la Joconde. Ils ont créé l’image emblématique synchronisation labiale à Anne Hathaway « Paparazzi« , qui commence par les lignes » Yo, je suis un paparazzi, je ne joue pas au yahtzee. «
La Joconde était un exemple d’entrée photo sur laquelle le modèle d’IA n’était pas formé – mais pouvait quand même manipuler. Le modèle pouvait également transformer des photos artistiques, enregistrer des audios chantés et gérer la parole dans des langues autres que l’anglais.
Les chercheurs ont souligné que le modèle pouvait fonctionner en temps réel avec une vidéo de démonstration montrant le modèle animant instantanément des images avec des mouvements de tête et des expressions faciales.
Deepfakes, ou médias modifiés numériquement d’une personne qui pourraient diffuser des informations erronées ou prendre l’image de quelqu’un sans autorisationconstituent un risque posé par l’IA avancée qui peut générer des médias numériques avec relativement peu de points de référence.
En rapport: Le Tennessee adopte une loi protégeant les musiciens contre les deepfakes de l’IA
Microsoft a répondu à cette préoccupation de manière générale dans le document, les chercheurs déclarant : « Nous sommes opposés à tout comportement visant à créer des contenus trompeurs ou préjudiciables de personnes réelles et souhaitons appliquer notre technique pour faire progresser la détection des contrefaçons. »
Les chercheurs ont déclaré que leur technique avait également des applications potentiellement positives, comme l’amélioration de l’accessibilité et le renforcement des efforts pédagogiques.
Google a fait une démonstration projet de recherche similaire le mois dernier, présentant une IA capable de prendre une photo et d’en créer une vidéo que l’utilisateur peut ensuite contrôler avec sa voix. L’IA a pu ajouter des mouvements de tête, des clignements et des gestes de la main.
Source link