Une approche rapide, efficace, réutilisable et évolutive permettant d’appliquer Data Data et Machine Learning à un énoncé d’intérêt allant de l’expérience à la production.
Avec l’avènement de la science des données et de l’apprentissage automatique, la plupart des industries ont pris conscience de l’intérêt c'est exploiter le pouvoir des données. Cela concerne non seulement les secteurs de la fabrication, des soins de santé et de l'automobile, mais également toutes les entreprises ne différant que par leur taille. Cela dit, quelle que soit l'entreprise concernée, l'objectif est de mapper les données sur des informations précieuses, puis sur des dollars. Ainsi, en termes simples:
"La science des données est une étude systématique de la structure et du comportement des données pour en tirer des conclusions utiles et exploitables"
L’application de la science des données à toute entreprise commence toujours par des expériences. Ces expériences subissent plusieurs itérations et sont finalement préparées pour la production. Qu'il s'agisse d'une phase expérimentale ou d'une phase de production, le processus implique une simple séquence d'étapes à travers laquelle les données à l'étude sont transmises. La séquence peut être simple, mais la complexité des étapes sous-jacentes peut varier. Nous appelons cela le workflow Data Science .
Ce qui suit est un exemple simple de flux de travail de processus Data Science:
Comprenant la situation, Progress a élaboré une approche "simple mais évolutive" pour faciliter le travail d'un scientifique des données qui souhaite s'en tenir à ses techniques et ses algorithmes, ainsi que d'une entreprise. Analyste / utilisateur souhaitant appliquer les informations exploitables à l'entreprise.
Définition de l'approche
Le flux de travail étant une séquence d'étapes dans un ordre défini, il peut être conceptualisé sous la forme d'un graphe dirigé. Les nœuds constituent les étapes du flux et les bords désignent le flux d'informations. L'interface utilisateur graphique par glisser-déposer est la cerise sur le gâteau. Dans cette approche, la conception reste centrée sur la conception, tandis que la complexité de l'exécution est résumée à différents niveaux par l'utilisateur.
Par souci de simplicité, classons les étapes impliquées dans un flux de travaux typique comme suit:
- Acquisition de données
- Préparation des données
- Découverte et apprentissage automatique
- Résultats du rapport et connaissances
Acquisition de données
Il peut être nécessaire de lire les données qui vous intéressent à partir de sources de données disparates. Par exemple, SGBDR, système de fichiers local ou système de fichiers distribué Hadoop, pour en nommer quelques-uns. Le format des données sous-jacentes peut également différer de celui des fichiers CSV, Parquet, ORC, etc. Pour que le flux de travail reste indépendant du lieu où se trouvent les données et sous quel format, définissez cette entité comme un jeu de données dans lequel, en fonction de l'emplacement et du format de les données, les lecteurs respectifs agissent et apportent les données au flux d’exécution. Cela peut être représenté comme un nœud dans le graphique
Préparation des données
Une fois les données lues, nous devons nettoyer et préparer les données à utiliser pour l'analyse. Cela implique certaines actions à exécuter sur les données telles que jointures, unions, filtres, transformations, etc. Représentez ces actions sous forme de nœuds respectifs.
Découverte et apprentissage automatique
Il s’agit là d’une étape décisionnelle consistant à appliquer une ensemble de techniques et d’algorithmes d’apprentissage automatique. Pendant la phase expérimentale, un bloc-notes REPL est nécessaire pour coder et afficher les résultats.
Remarque: REPL signifie Read-Eval-Print-Loop, qui est un environnement de programmation et fournit une console de codage interactive. C'est maintenant l'une des méthodes d'analyse expérimentale les plus largement utilisées et préférées. Zeppelin et Jupyter sont les principaux cahiers de notes de ce paradigme.
Avant que les algorithmes ne soient prêts pour la production, ils subissent de nombreuses itérations pour un réglage précis et une refactorisation. Un nœud représentant le bloc-notes REPL introduira la console de codage dans le graphique.
Une fois que le code est prêt pour la production, il peut être modélisé. Les modèles d'algorithme peuvent être réutilisés sur une entrée différente avec des caractéristiques similaires. Ces modèles, lorsqu'ils sont nommés en conséquence et définis avec les entrées et les sorties respectives, peuvent constituer un autre ensemble de nœuds pour le graphe. Les exécuteurs résument l’environnement d’exécution (Spark, Dask, TensorFlow) basé sur le langage de programmation (Java, Scala, Python, etc.) avec lequel l’algorithme est codé.
Report Results and Insights
avec riche ensemble de graphiques et de tableaux. Des modèles pour des graphiques et des tableaux individuels ou un tableau de bord complexe de choix constituent les nœuds de visualisation.
Compte tenu de la situation des scientifiques, des ingénieurs, des analystes et des utilisateurs de DevOps dans le monde de la prise de décision reposant sur des données, il existe Les expériences sur les données, la création des environnements d’exécution nécessaires, le réglage des performances, le retour d'information sur les résultats et leur perspicacité permettent de les rapprocher, ce qui facilite leur vie.
Pour tout logiciel ou application, la conception doit être aussi enfichable et extensible que possible. Il a été prouvé que cette conception enfichable et extensible rend cette approche rapide, efficace, réutilisable et évolutive. N'hésitez pas à contactez-nous pour en savoir plus sur la façon dont vous pouvez essayer cette approche "facile à vivre".
Source link