Fermer

avril 18, 2021

Nouveau dans la vision par ordinateur et l'imagerie médicale? Commencez avec ces 10 projets


(IA) et l'informatique qui permet aux systèmes automatisés de voir, c'est-à-dire de traiter des images et des vidéos d'une manière humaine pour détecter et identifier des objets ou des régions d'importance, prédire un résultat ou même modifier l'image au format souhaité [1]. Les cas d'utilisation les plus courants dans le domaine CV incluent la perception automatisée pour la conduite autonome, les réalités augmentées et virtuelles (RA, VR) pour les simulations, les jeux, les lunettes, la réalité et le commerce électronique axé sur la mode ou la beauté.

Medical image (MI ), d'autre part, implique une analyse beaucoup plus détaillée des images médicales qui sont généralement en niveaux de gris telles que les images IRM, CT ou rayons X pour la détection automatisée de la pathologie, une tâche qui nécessite l'œil d'un spécialiste qualifié pour la détection. Les cas d'utilisation les plus courants dans le domaine MI incluent l'étiquetage automatisé de la pathologie, la localisation, l'association avec un traitement ou des pronostics, et la médecine personnalisée.

Avant l'avènement des méthodes d'apprentissage en profondeur, les solutions de traitement du signal 2D telles que le filtrage d'image, les transformées en ondelettes, l'image l'enregistrement, suivi des modèles de classification [2–3] ont été largement appliqués pour les cadres de solution. Les solutions de traitement du signal continuent d'être le premier choix pour la création de modèles de référence en raison de leur faible latence et de leur grande généralisabilité entre les ensembles de données.

Cependant, les solutions et les cadres d'apprentissage en profondeur sont devenus un nouveau favori en raison de leur nature de bout en bout. qui élimine le besoin d'ingénierie des fonctionnalités, de sélection des fonctionnalités et de seuillage de sortie. Dans ce tutoriel, nous passerons en revue les choix du projet « Top 10» pour les débutants dans les domaines CV et MI et fournirons des exemples avec données et démarreur code pour faciliter l'apprentissage au rythme de chacun.

Les cadres de solution CV et MI peuvent être analysés en trois segments: Data, Process, and Outcomes [4]. Il est important de toujours visualiser les données requises pour que ces cadres de solution aient le format «{X, Y}», où X représente les données image / vidéo et Y représente la cible ou les étiquettes de données . Alors que les images et les séquences vidéo (X) naturelles non étiquetées peuvent être abondantes, l'acquisition d'étiquettes précises (Y) peut être un processus coûteux. Avec l'avènement de plusieurs plates-formes d'annotation de données telles que [5–7]les images et les vidéos peuvent être étiquetées pour chaque cas d'utilisation.

Étant donné que les modèles d'apprentissage en profondeur reposent généralement sur de grands volumes de données annotées pour apprendre automatiquement les fonctionnalités des tâches de détection ultérieures, le Les domaines CV et MI souffrent souvent du « petit défi de données », dans lequel le nombre d'échantillons disponibles pour l'apprentissage d'un modèle d'apprentissage automatique est de plusieurs ordres inférieur au nombre de paramètres du modèle.

Les «petites données défi ”si non résolu peut conduire à des modèles de sur-ajustement ou de sous-ajustement qui peuvent ne pas se généraliser à de nouveaux ensembles de données de test invisibles. Ainsi, le processus de conception d'un cadre de solution pour les domaines CV et MI doit toujours inclure des contraintes de complexité de modèle, les modèles avec moins de paramètres étant généralement préférés pour éviter un sous-ajustement du modèle.

Enfin, la solution les résultats du cadre sont analysés à la fois qualitativement par des solutions de visualisation et quantitativement en termes de métriques bien connues telles que la précision, le rappel, l'exactitude et les coefficients F1 ou Dice [8–9].

Les projets énumérés ci-dessous présentent une variété de niveaux de difficulté (difficulté niveaux Facile, Moyen, Difficile ) en ce qui concerne le prétraitement des données et la construction de modèles. En outre, ces projets représentent une variété de cas d'utilisation qui prévalent actuellement dans les communautés de recherche et d'ingénierie. Les projets sont définis en termes de: Objectif, Méthodes, et Résultats .

Projet 1: MNIST et Fashion MNIST pour la classification d'images (Niveau: Facile)

Objectif: Traiter des images (X) de taille [28×28] pixels et les classer dans l'une des 10 catégories de sortie (Y). Pour l'ensemble de données MNIST, les images d'entrée sont des chiffres manuscrits compris entre 0 et 9 [10]. Les ensembles de données d'entraînement et de test contiennent respectivement 60 000 et 10 000 images étiquetées. Inspiré par le problème de la reconnaissance des chiffres manuscrits, un autre ensemble de données appelé le jeu de données Fashion MNIST a été lancé [11] où le but est de classer les images (de taille [28×28]) en catégories de vêtements, comme le montre la Fig. 1.