Fermer

mars 17, 2020

L'ennemi de l'apprentissage automatique –


Auparavant, j'ai discuté de l'apprentissage automatique et des traits qui le séparent de l'intelligence artificielle. Ce blog analyse à quel point les données sales ou mauvaises sont l'ennemi de l'apprentissage automatique.

Bien que des données entièrement précises et complètes soient le but d'un programme complet de gestion des données, de nombreuses entreprises manquent un peu. Les projets de gouvernance cloisonnés et l'absence d'une stratégie globale de données entraînent souvent un cadre de qualité des données incohérent. La nécessité de disposer de données complètes et précises n'a jamais été aussi importante. La formation des programmes ML nécessite de grandes quantités de données propres, car de nombreux algorithmes, tels que les réseaux de neurones et l'apprentissage en profondeur, gagnent en précision progressivement à partir de chaque ensemble de points de données. Des données propres supplémentaires sont nécessaires après la formation pour tester les modèles ML afin d'évaluer leur précision.

Si une entreprise n'a pas encore de programme complet de gestion des données en place, il n'est jamais trop tard pour commencer. Étant donné l'importance concurrentielle de tirer parti des technologies de BC, les entreprises devront chercher des moyens de nettoyer leurs ensembles de données existants, au besoin. Dans les services financiers, cela inclurait toutes les données qui pourraient être utilisées pour créer et former un modèle de ML prédictif, y compris les données client, de portefeuille, de marché, de référence et de référence. La bonne nouvelle est qu'il existe de nombreux logiciels de fournisseurs disponibles pour identifier – et dans certains cas, réparer – les éléments de données ou les enregistrements de données suspects. L'approche ou la méthode spécifique d'analyse de la qualité des données varie selon le produit, alors soyez prudent lors de la sélection d'un produit.

Cela peut sembler quelque peu incongru, mais ML est maintenant utilisé pour nettoyer les données nécessaires pour former d'autres applications prédictives de ML. Une nouvelle génération d'outils de qualité des données basés sur le ML fait son apparition et s'avère très efficace pour identifier les omissions et les incohérences dans les données. Les algorithmes de clustering d'apprentissage automatique, tels que k-means, fournissent un cadre visuel pour identifier les modèles et les poches de problèmes de qualité des données.

Il convient toutefois de noter que, comme pour la plupart des applications ML, la technologie n'est pas simplement plug-and-play. Il faut la main de praticiens de l'IA talentueux pour déterminer les dimensions du modèle et le nombre de clusters à analyser, ainsi que pour explorer et interpréter les résultats.

Déploiement de solutions basées sur ML, ou même utilisation d'outils ML pour préparer les associés les données de formation, n'est pas pour les non-initiés ou les faibles de cœur. Il existe une multitude d'algorithmes ML différents à connaître, et un facteur clé dans le déploiement réussi de ML est la capacité de sélectionner l'algorithme approprié pour répondre à chaque situation. Même une fois qu'un algorithme approprié est déterminé, de nombreux paramètres doivent être pris en compte pour un modèle réussi. Les modèles d'apprentissage automatique peuvent souvent être «bloqués» sur les soi-disant «minima locaux» (en fonction de leur surface d'erreur non convexe) et produire des résultats sous-optimaux, voire aucun résultat.

Pour en savoir plus sur les différences spécifiques entre AI et ML, les données sales et les moyens de tirer parti de ces technologies, vous pouvez cliquer sur ici ou remplir le formulaire ci-dessous.




Source link