Fermer

août 9, 2019

Expériences de recherche pour une utilisation professionnelle


Une approche rapide, efficace, réutilisable et évolutive permettant d’appliquer Data Data et Machine Learning à un énoncé d’intérêt allant de l’expérience à la production.

Avec l’avènement de la science des données et de l’apprentissage automatique, la plupart des industries ont pris conscience de l’intérêt c'est exploiter le pouvoir des données. Cela concerne non seulement les secteurs de la fabrication, des soins de santé et de l'automobile, mais également toutes les entreprises ne différant que par leur taille. Cela dit, quelle que soit l'entreprise concernée, l'objectif est de mapper les données sur des informations précieuses, puis sur des dollars. Ainsi, en termes simples:

"La science des données est une étude systématique de la structure et du comportement des données pour en tirer des conclusions utiles et exploitables"

L’application de la science des données à toute entreprise commence toujours par des expériences. Ces expériences subissent plusieurs itérations et sont finalement préparées pour la production. Qu'il s'agisse d'une phase expérimentale ou d'une phase de production, le processus implique une simple séquence d'étapes à travers laquelle les données à l'étude sont transmises. La séquence peut être simple, mais la complexité des étapes sous-jacentes peut varier. Nous appelons cela le workflow Data Science .

Ce qui suit est un exemple simple de flux de travail de processus Data Science:

 Flux de travail Data Science "title =" Flux de travail Data Science "/> </p>
<p> À partir de la capture et du stockage de données jusqu'à la génération du rapport, il existe une une grande variété d’outils ou de cadres pouvant être utilisés, ce qui semble bien fonctionner au début de la phase d’expérimentation, mais devient fastidieux lorsqu’on essaie de le produire, car il implique certaines pratiques de développement. De nombreux scientifiques investissent plusieurs semaines / mois dans la mise en place En outre, ils doivent installer et importer les dépendances, gérer les pipelines de données endommagés, désérialiser et sérialiser des tableaux de données pour plusieurs algorithmes, régler manuellement les hyper-paramètres, gérer le magasin de métadonnées et le magasin de données pour les expériences réussies et infructueuses, gérez l’infrastructure et l’évolutivité du cloud, et construisez enfin une configuration distincte pour la solution "Prêt pour la production". </p>
<p> Le malheur est que l’étape ci-dessus s doivent être répétés pour chaque nouveau cas d'utilisation sans certitude de succès. En règle générale, un Data Scientist, qualifié par [Harvard Business Review] du <a href= travail le plus sexy du XXIe siècle a en effet de la difficulté à essayer et à utiliser les nombreux outils et à adopter des pratiques de développement une partie de ce n'est pas de leur préoccupation réelle.

Comprenant la situation, Progress a élaboré une approche "simple mais évolutive" pour faciliter le travail d'un scientifique des données qui souhaite s'en tenir à ses techniques et ses algorithmes, ainsi que d'une entreprise. Analyste / utilisateur souhaitant appliquer les informations exploitables à l'entreprise.

Définition de l'approche

Le flux de travail étant une séquence d'étapes dans un ordre défini, il peut être conceptualisé sous la forme d'un graphe dirigé. Les nœuds constituent les étapes du flux et les bords désignent le flux d'informations. L'interface utilisateur graphique par glisser-déposer est la cerise sur le gâteau. Dans cette approche, la conception reste centrée sur la conception, tandis que la complexité de l'exécution est résumée à différents niveaux par l'utilisateur.

Par souci de simplicité, classons les étapes impliquées dans un flux de travaux typique comme suit:

  • Acquisition de données
  • Préparation des données
  • Découverte et apprentissage automatique
  • Résultats du rapport et connaissances

Acquisition de données

Il peut être nécessaire de lire les données qui vous intéressent à partir de sources de données disparates. Par exemple, SGBDR, système de fichiers local ou système de fichiers distribué Hadoop, pour en nommer quelques-uns. Le format des données sous-jacentes peut également différer de celui des fichiers CSV, Parquet, ORC, etc. Pour que le flux de travail reste indépendant du lieu où se trouvent les données et sous quel format, définissez cette entité comme un jeu de données dans lequel, en fonction de l'emplacement et du format de les données, les lecteurs respectifs agissent et apportent les données au flux d’exécution. Cela peut être représenté comme un nœud dans le graphique

Préparation des données

Une fois les données lues, nous devons nettoyer et préparer les données à utiliser pour l'analyse. Cela implique certaines actions à exécuter sur les données telles que jointures, unions, filtres, transformations, etc. Représentez ces actions sous forme de nœuds respectifs.

Découverte et apprentissage automatique

Il s’agit là d’une étape décisionnelle consistant à appliquer une ensemble de techniques et d’algorithmes d’apprentissage automatique. Pendant la phase expérimentale, un bloc-notes REPL est nécessaire pour coder et afficher les résultats.

Remarque: REPL signifie Read-Eval-Print-Loop, qui est un environnement de programmation et fournit une console de codage interactive. C'est maintenant l'une des méthodes d'analyse expérimentale les plus largement utilisées et préférées. Zeppelin et Jupyter sont les principaux cahiers de notes de ce paradigme.

Avant que les algorithmes ne soient prêts pour la production, ils subissent de nombreuses itérations pour un réglage précis et une refactorisation. Un nœud représentant le bloc-notes REPL introduira la console de codage dans le graphique.

Une fois que le code est prêt pour la production, il peut être modélisé. Les modèles d'algorithme peuvent être réutilisés sur une entrée différente avec des caractéristiques similaires. Ces modèles, lorsqu'ils sont nommés en conséquence et définis avec les entrées et les sorties respectives, peuvent constituer un autre ensemble de nœuds pour le graphe. Les exécuteurs résument l’environnement d’exécution (Spark, Dask, TensorFlow) basé sur le langage de programmation (Java, Scala, Python, etc.) avec lequel l’algorithme est codé.

Report Results and Insights

avec riche ensemble de graphiques et de tableaux. Des modèles pour des graphiques et des tableaux individuels ou un tableau de bord complexe de choix constituent les nœuds de visualisation.

 Flux de travail Data Science 2 "title =" Flux de travail Data Science 2 "/> </p>
<p> Cela ne s'arrête pas là. Une fois le flux de travail prêt pour résoudre un problème métier, et s’il est trouvé suffisamment générique, le workflow lui-même peut être modélisé et appliqué à des jeux de données de verticales similaires ou être imbriqué dans d’autres graphes de workflow en tant que nœuds. contrôle de la facilité d'utilisation sans compromettre les performances. </p>
<h2 id= Conclusion

Compte tenu de la situation des scientifiques, des ingénieurs, des analystes et des utilisateurs de DevOps dans le monde de la prise de décision reposant sur des données, il existe Les expériences sur les données, la création des environnements d’exécution nécessaires, le réglage des performances, le retour d'information sur les résultats et leur perspicacité permettent de les rapprocher, ce qui facilite leur vie.

Pour tout logiciel ou application, la conception doit être aussi enfichable et extensible que possible. Il a été prouvé que cette conception enfichable et extensible rend cette approche rapide, efficace, réutilisable et évolutive. N'hésitez pas à contactez-nous pour en savoir plus sur la façon dont vous pouvez essayer cette approche "facile à vivre".




Source link