juin 29, 2018

L'IA de DeepMind a appris à transformer des images plates en scènes 3D

La société sœur de Google au Royaume-Uni, DeepMind, a récemment développé une IA capable de restituer des scènes entières en 3D après les avoir seulement observées comme des images 2D planes.

Les traits larges: essayer d'enseigner aux machines à apprendre comme les humains. Plutôt que de voir le monde en pixels, nous regardons autour de notre environnement et faisons des hypothèses sur tout ce qui s'y trouve. Si nous pouvons voir la poitrine de quelqu'un, nous supposons qu'ils ont aussi un dos, même si ce n'est pas visible de notre point de vue.

Si vous jouez au coucou avec un bébé, ils apprennent que votre visage existe toujours même si vous couvrez-le avec votre main. Et c'est essentiellement ce que l'équipe de DeepMind a fait avec leurs machines: ils ont formé une IA à deviner à quoi ressemblent les choses sous des angles qu'elle n'a pas vus.

Detail: Les scientifiques de DeepMind est venu avec un réseau de requête générative (GQN), un réseau de neurones conçu pour enseigner à l'IA comment imaginer à quoi ressemblerait une scène d'objets d'une perspective différente. Fondamentalement, l'IA observe des images 2D planes d'une scène et essaie ensuite de les recréer. Ce qui est significatif, dans ce cas, c'est que l'IA de DeepMind n'utilise aucune entrée étiquetée par l'homme ou aucune connaissance antérieure. Il observe aussi peu que trois images et se met au travail pour prédire à quoi ressemblerait une version 3D de la scène.

Pensez-y comme prendre une photo d'un cube et demander à une IA de rendre la même image sous un angle différent. Des choses comme l'éclairage et les ombres changeraient, ainsi que la direction des lignes composant le cube. AI – utilisant le GQN – doit imaginer à quoi ressemblerait le cube d'angles qu'il ne l'a jamais réellement observé, afin de rendre l'image demandée.

L'impact: Les chercheurs sont: En ce moment, l'IA n'a pas été entraînée avec des images du monde réel, il s'ensuit que la prochaine étape consisterait à rendre des scènes réalistes à partir de photographies.

Il est possible, à l'avenir, que DeepMind Une IA basée sur le GQN pourrait générer des scènes 3D à la demande qui sont presque identiques au monde réel, n'utilisant que des photographies.

Représentation de scène neurale et rendu
sur DeepMind Blog

Blog ARC Optimizer

juin 29, 2018

L'IA de DeepMind a appris à transformer des images plates en scènes 3D

Articles similaires

Blog ARC Optimizer

Partager :

Articles similaires