Fermer

mai 20, 2018

7 Meilleures pratiques d'apprentissage automatique


Le fameux défi d'algorithme de Netflix a attribué un million de dollars au meilleur algorithme pour prédire les évaluations des utilisateurs pour les films. Mais saviez-vous que l'algorithme gagnant n'a jamais été implémenté dans un modèle fonctionnel?

Netflix a rapporté que les résultats de l'algorithme ne semblaient pas justifier l'effort d'ingénierie nécessaire pour les amener dans un environnement de production. C'est l'un des gros problèmes de l'apprentissage automatique.

Dans votre entreprise, vous pouvez créer le modèle d'apprentissage automatique le plus élégant que quelqu'un ait jamais vu. Cela n'aura aucune importance si vous ne le déployez jamais et ne l'opérationnalisez jamais. Ce n'est pas une mince affaire, c'est pourquoi nous vous présentons sept meilleures pratiques d'apprentissage automatique.

Téléchargez votre ebook gratuit, "Démystifier l'apprentissage automatique "

Lors du dernier Data and Analytics Summit nous avons rencontré Charlie Berger, directeur principal de la gestion des produits pour Data Mining et Advanced Analytics, pour en savoir plus. Cet article est basé sur ce qu'il avait à dire.

Mettre votre modèle en pratique pourrait durer plus longtemps que vous ne le pensez. Un rapport TDWI a trouvé que 28% des répondants ont mis trois à cinq mois pour mettre leur modèle en service. Et presque 15% avaient besoin de plus de neuf mois

 Graphique sur l'utilisation opérationnelle de l'apprentissage automatique

Alors, que pouvez-vous faire pour commencer à déployer votre apprentissage automatique plus rapidement?

conseils ici:

1. N'oubliez pas de commencer réellement

Dans les points suivants, nous allons vous donner une liste de différentes façons de vous assurer que vos modèles d'apprentissage automatique sont utilisés de manière meilleure . Mais nous commençons avec le point le plus important de tous.

La vérité est qu'à ce stade de l'apprentissage automatique, beaucoup de gens ne commencent jamais du tout. Cela arrive pour plusieurs raisons. La technologie est compliquée, le buy-in n'est peut-être pas là, ou les gens essayent juste trop dur pour obtenir tout e-x-a-c-t-l-y juste. Voici donc la recommandation de Charlie:

Commencez, même si vous savez que vous devrez reconstruire le modèle une fois par mois. L'apprentissage que vous en tirerez sera d'une valeur inestimable.

2. Commencez avec un énoncé de problème commercial et Établissez les bonnes métriques de succès

Commencer par un problème commercial est une pratique courante d'apprentissage automatique. Mais c'est fréquent parce que c'est tellement essentiel et pourtant beaucoup de gens le désaccordent.

Pensez à cette citation: «Si j'avais une heure pour résoudre un problème, je passerais 55 minutes à réfléchir au problème et 5 minutes à penser à propos des solutions. "

Assurez-vous maintenant que vous l'appliquez à vos scénarios d'apprentissage automatique. Ci-dessous, nous avons une liste d'énoncés de problèmes mal définis et des exemples de façons de les définir de façon plus spécifique.

 Relevés de problèmes d'apprentissage automatique

Pensez à votre définition de rentabilité. Par exemple, nous avons récemment discuté avec une chaîne nationale de restaurants à service rapide et décontracté qui souhaitait augmenter leurs ventes de boissons gazeuses. Dans ce cas, nous avons dû examiner attentivement les implications de la définition du panier. La transaction est-elle un seul repas, ou six repas pour une famille? Cela est important car cela affecte la façon dont vous allez afficher les résultats. Vous devrez réfléchir à la façon d'aborder le problème et finalement le rendre opérationnel.

Au-delà de l'établissement de mesures de succès, vous devez établir les bonnes. Les métriques vous aideront à établir des progrès, mais l'amélioration de la métrique améliore-t-elle réellement l'expérience de l'utilisateur final? Par exemple, vos mesures de précision traditionnelles peuvent inclure la précision et l'erreur quadratique. Mais si vous essayez de créer un modèle qui mesure l'optimisation des prix pour les compagnies aériennes, cela n'a pas d'importance si votre coût par achat et n'augmente pas.

3. Ne déplacez pas vos données – Déplacez les algorithmes

Le talon d'Achille dans la modélisation prédictive est que c'est un processus en deux étapes. Vous construisez d'abord le modèle, généralement sur des exemples de données pouvant aller de centaines à des millions. Et puis, une fois le modèle prédictif construit, les scientifiques doivent l'appliquer. Cependant, une grande partie de ces données réside dans une base de données quelque part.

Disons que vous voulez des données sur toutes les personnes aux États-Unis. Il y a 360 millions de personnes aux États-Unis – où résident ces données? Probablement dans une base de données quelque part.

Où réside votre modèle prédictif?

En général, les gens vont sortir toutes leurs données de la base de données pour pouvoir exécuter leurs équations avec leur modèle. Ensuite, ils devront importer les résultats dans la base de données pour faire ces prédictions. Et ce processus prend des heures et des heures et des jours et des jours, réduisant ainsi l'efficacité des modèles que vous avez construits.

Cependant, la croissance de vos équations depuis l'intérieur de la base de données présente des avantages significatifs. L'exécution des équations à l'aide du noyau de la base de données prend quelques secondes, contrairement aux heures d'exportation de vos données. Ensuite, la base de données peut aussi faire tous vos calculs et la construire dans la base de données. En conservant vos données dans votre base de données et dans Hadoop ou dans le stockage d'objets, vous pouvez créer des modèles et des scores dans la base de données et utiliser des packages R avec des appels de données parallèles. Cela vous permet d'éliminer les duplications de données et de séparer les serveurs analytiques (en ne déplaçant pas les données) et vous permet de marquer les modèles, d'intégrer la préparation des données, de créer des modèles et de préparer les données en quelques heures.

4. Assembler les bonnes données

Comme James Taylor et Neil Raden l'ont écrit dans Smart Enough Systems cataloguer tout ce que vous avez et décider quelles données sont importantes est la mauvaise façon de procéder. La bonne façon est de travailler en arrière à partir de la solution, de définir explicitement le problème et de cartographier les données nécessaires pour peupler l'enquête et les modèles

Et puis, il est temps de collaborer avec d'autres équipes

 Équipes de collaboration en apprentissage machine

Voici où vous pouvez potentiellement commencer à vous enliser. Nous allons donc nous référer au point numéro 1, qui dit: «N'oubliez pas de commencer réellement.» En même temps, assembler les bonnes données est très important pour votre succès.

Pour vous de trouver les bonnes données Pour utiliser votre enquête et vos modèles, vous voudrez parler aux gens dans les trois principaux domaines du domaine des affaires, de la technologie de l'information et des analystes de données.

Domaine des affaires – ce sont les personnes qui connaissent l'entreprise.

  • Marketing et ventes
  • Service à la clientèle
  • Opérations

Technologies de l'information – les personnes qui ont accès aux données

  • Administrateurs de bases de données

Analystes de données – personnes qui connaissent l'affaire.

  • Statisticiens
  • Mineurs de données
  • Data scientists

Vous avez besoin de la participation active. Sans cela, vous obtiendrez des commentaires comme:

  • Ces pistes ne sont pas bonnes
  • Cette donnée est ancienne
  • Ce modèle n'est pas assez précis
  • Pourquoi n'avez-vous pas utilisé ces données?

Vous avez déjà tout entendu.

5. Créer de nouvelles variables dérivées

Vous pouvez penser, j'ai déjà toutes ces données à portée de main. De quoi ai-je besoin?

Mais la création de nouvelles variables dérivées peut vous aider à obtenir des informations beaucoup plus perspicaces. Par exemple, vous pourriez essayer de prédire la quantité de journaux et de magazines vendus le lendemain. Voici les informations que vous avez déjà:

  • Magasin de brique ou de kiosque
  • Vendre des billets de loterie?
  • Montant du prix de loterie actuel

Bien sûr, vous pouvez faire une estimation basée sur cette information. Mais si vous êtes en mesure de comparer d'abord le montant du prix de loterie actuel par rapport aux montants de prix typiques, puis de comparer cette variable dérivée avec les variables que vous avez déjà, vous aurez une réponse beaucoup plus précise.

6. Examiner les problèmes et tester avant le lancement

Idéalement, vous devriez être en mesure de tester A / B avec deux ou plusieurs modèles lorsque vous démarrez. Non seulement vous saurez comment vous faites les choses correctement, mais vous serez également capable de vous sentir plus confiant en sachant que vous le faites correctement.

Mais en allant plus loin que des tests approfondis, vous devriez aussi avoir un plan endroit pour quand les choses vont mal. Par exemple, vos statistiques commencent à tomber. Il y a plusieurs choses qui vont entrer dans cela. Vous aurez besoin d'une sorte d'alerte pour vous assurer que cela peut être examiné dès que possible. Et quand un VP arrive dans votre bureau pour savoir ce qui s'est passé, vous allez devoir expliquer ce qui est arrivé à quelqu'un qui n'a probablement pas d'expérience en ingénierie.

Alors, bien sûr, il y a les problèmes dont vous avez besoin planifier avant le lancement. Se conformer à la réglementation en fait partie. Par exemple, disons que vous faites une demande de prêt automobile et qu'on vous refuse un crédit. En vertu des nouveaux règlements du GDPR, vous avez le droit de savoir pourquoi. Bien sûr, l'un des problèmes de l'apprentissage automatique est qu'il peut sembler être une boîte noire et même les ingénieurs / spécialistes des données ne peuvent pas dire pourquoi certaines décisions ont été prises. Cependant, certaines entreprises vous aideront en vous assurant que vos algorithmes donneront un détail de prédiction .

7. Déployer et automatiser à l'échelle de l'entreprise

Une fois le déploiement terminé, il est préférable d'aller au-delà de l'analyste de données ou du data scientist.

Nous pensons toujours à la manière dont vous pouvez distribuer des prédictions et des informations exploitables dans toute l'entreprise. C'est où les données sont et quand elles sont disponibles qui le rend utile; pas le fait qu'il existe. Vous ne voulez pas être celui qui est assis dans la tour d'ivoire, saupoudrant parfois de perspicacité. Vous voulez être partout, tout le monde vous demande plus de perspicacité – en un mot, vous voulez vous assurer que vous êtes indispensable et extrêmement précieux.

Étant donné que nous avons tous tellement de temps, c'est plus facile si vous pouvez automatiser cela. Créer des tableaux de bord Intégrez ces informations dans les applications d'entreprise. Voyez si vous pouvez devenir une partie des points de contact de client, comme un guichet automatique reconnaissant qu'un client retire régulièrement 100 $ tous les vendredis soir et aime 500 $ après chaque jour de paye.

Conclusion

de bon apprentissage de la machine. Vous avez besoin de bonnes données, ou vous n'êtes nulle part. Vous devez le placer quelque part comme une base de données ou un stockage d'objets. Vous avez besoin d'une connaissance approfondie des données et de ce qu'il faut en faire, qu'il s'agisse de créer de nouvelles variables dérivées ou des algorithmes appropriés pour les utiliser. Ensuite, vous devez vraiment les mettre au travail et obtenir de bonnes idées et les diffuser à travers l'information.

Le plus difficile est de lancer votre projet d'apprentissage automatique. Nous espérons qu'en créant cet article, nous vous avons aidé à franchir les étapes du succès. Si vous avez d'autres questions ou si vous souhaitez voir notre logiciel d'apprentissage automatique, n'hésitez pas à nous contacter .

Vous pouvez également vous reporter à certains des articles que nous avons créés le ] les meilleures pratiques d'apprentissage automatique et défis à ce sujet. Ou, téléchargez votre ebook gratuit, " Démystifier l'apprentissage automatique ."




Source link