juin 28, 2021

Voici comment l'apprentissage en profondeur aide les ordinateurs à détecter des objets

Les réseaux de neurones profonds sont devenus célèbres pour leur capacité à traiter des informations visuelles. Et au cours des dernières années, ils sont devenus un élément clé de nombreuses applications de vision par ordinateur.

Parmi les problèmes clés que les réseaux de neurones peuvent résoudre, il y a la détection et la localisation d'objets dans les images. La détection d'objets est utilisée dans de nombreux domaines différents, notamment la conduite autonomela vidéosurveillance et les soins de santé.

Dans cet article, je passerai brièvement en revue les architectures d'apprentissage en profondeur[19659007] qui aident les ordinateurs à détecter des objets.

Réseaux de neurones convolutifs

L'un des composants clés de la plupart des applications de vision par ordinateur basées sur l'apprentissage profond est le réseau de neurones convolutifs (CNN). Inventés dans les années 1980 par le pionnier de l'apprentissage en profondeur Yann LeCunles CNN sont un type de réseau de neurones efficace pour capturer des modèles dans des espaces multidimensionnels. Cela rend les CNN particulièrement adaptés aux images, bien qu'ils soient également utilisés pour traiter d'autres types de données. (Pour nous concentrer sur les données visuelles, nous considérerons nos réseaux de neurones convolutifs comme étant bidimensionnels dans cet article.)

Chaque réseau de neurones convolutifs est composé d'un ou plusieurs couches convolutives un composant logiciel qui extrait des valeurs significatives de l'image d'entrée. Et chaque couche de convolution est composée de plusieurs filtres, des matrices carrées qui glissent sur l'image et enregistrent la somme pondérée des valeurs de pixels à différents emplacements. Chaque filtre a des valeurs différentes et extrait différentes caractéristiques de l'image d'entrée. La sortie d'une couche de convolution est un ensemble de "cartes de caractéristiques".

Lorsqu'elles sont empilées les unes sur les autres, les couches de convolution peuvent détecter une hiérarchie de modèles visuels. Par exemple, les couches inférieures produiront des cartes de caractéristiques pour les bords verticaux et horizontaux, les coins et d'autres motifs simples. Les couches suivantes peuvent détecter des motifs plus complexes tels que des grilles et des cercles. Au fur et à mesure que vous vous enfoncez dans le réseau, les couches détectent des objets complexes tels que des voitures, des maisons, des arbres et des personnes.