Des outils de science des données essentiels pour améliorer vos opérations d’analyse

Le boom de la science des données se poursuit sans relâche. Le travail de collecte et d’analyse des données était autrefois réservé à quelques scientifiques du laboratoire. Aujourd’hui, chaque entreprise veut utiliser la puissance de science des données pour rationaliser leurs organisations et rendre les clients heureux.
Le monde des outils de science des données se développe pour répondre à cette demande. Il y a quelques années à peine, scientifiques des données travaillé avec la ligne de commande et quelques bons packages open source. Aujourd’hui, les entreprises créent des outils professionnels solides qui gèrent bon nombre des tâches courantes de la science des données, telles que le nettoyage des données.
L’échelle change aussi. La science des données n’était autrefois que des corvées numériques pour les scientifiques après le dur labeur d’entreprendre des expériences. C’est maintenant une partie permanente du flux de travail. Les entreprises intègrent désormais l’analyse mathématique dans leurs rapports d’activité et créent des tableaux de bord pour générer des visualisations intelligentes afin de comprendre rapidement ce qui se passe.
Le rythme s’accélère également. L’analyse qui était autrefois un travail annuel ou trimestriel est maintenant courir en temps réel. Les entreprises veulent savoir ce qui se passe en ce moment afin que les responsables et les employés de ligne puissent prendre des décisions plus intelligentes et tirer parti de tout ce que la science des données a à offrir.
Voici quelques-uns des meilleurs outils pour ajouter de la précision et de la science à l’analyse par votre organisation de son flux infini de données.
Cahiers Jupyter
Ces ensembles de mots, de codes et de données sont devenus la lingua franca du monde de la science des données. Les PDF statiques remplis d’analyses et de contenus immuables peuvent encore imposer le respect car ils créent un enregistrement permanent, mais les scientifiques des données de travail adorent ouvrir le capot et jouer avec le mécanisme en dessous. Cahiers Jupyter laissez les lecteurs faire plus qu’absorber.
Les versions originales des cahiers ont été créées par des utilisateurs de Python qui souhaitaient emprunter une partie de la flexibilité de Mathematica. Aujourd’hui, le Jupyter Notebook standard prend en charge plus de 40 langages de programmation, et il est courant d’y trouver R, Julia ou même Java ou C.
Le code du bloc-notes lui-même est open source, ce qui en fait simplement le début d’un certain nombre de grands projets passionnants pour la conservation des données, la prise en charge des cours ou simplement le partage d’idées. Les universités organisent certaines des classes avec les cahiers. Les data scientists les utilisent pour échanger des idées et livrer des idées. JupyterHub propose un serveur central conteneurisé avec authentification pour gérer les tâches de déploiement de tout votre génie de la science des données auprès d’un public afin qu’il n’ait pas besoin d’installer ou de maintenir des logiciels sur son bureau ou de s’inquiéter de la mise à l’échelle des serveurs de calcul.
Espaces de laboratoire pour ordinateurs portables
Les notebooks Jupyter ne se contentent pas de fonctionner eux-mêmes. Ils ont besoin d’une base d’accueil où les données sont stockées et l’analyse est calculée. Plusieurs entreprises proposent désormais ce support, parfois comme un outil promotionnel et parfois pour une somme modique. Certains des plus importants incluent Google Alde Github Espaces de codeAzur Apprentissage automatique laboratoire, JupyterLabs, Classeur, CoCalc, et Dataloremais il n’est souvent pas trop difficile d’installer votre propre serveur sous votre paillasse de laboratoire.
Bien que le cœur de chacun de ces services soit similaire, il existe des différences qui peuvent être importantes. La plupart prennent en charge Python d’une manière ou d’une autre, mais après cela, les préférences locales comptent. Microsoft Blocs-notes Azure, par exemple, prendra également en charge F#, un langage développé par Microsoft. Colab de Google prend en charge Swift, qui est également pris en charge pour les projets d’apprentissage automatique avec TensorFlow. Il existe également de nombreuses différences entre les menus et d’autres fonctionnalités mineures proposées par chacun de ces espaces de laboratoire pour ordinateurs portables.
RStudio
Le langage R a été développé par des statisticiens et des scientifiques des données pour être optimisé pour charger des ensembles de données de travail, puis appliquer tous les meilleurs algorithmes pour analyser les données. Certains aiment exécuter R directement depuis la ligne de commande, mais beaucoup aiment laisser RStudio gérer de nombreuses tâches. C’est un environnement de développement intégré (IDE) pour le calcul mathématique.
Le noyau est un atelier open source qui vous permet d’explorer les données, de manipuler le code, puis de générer les graphiques les plus élaborés que R puisse rassembler. Il suit votre historique de calcul afin que vous puissiez revenir en arrière ou répéter les mêmes commandes, et il offre une prise en charge du débogage lorsque le code ne fonctionne pas. Si vous avez besoin de Python, il fonctionnera également dans RStudio.
La société RStudio ajoute également fonctionnalités pour soutenir les équipes qui souhaitent collaborer sur un ensemble partagé de données. Cela signifie la gestion des versions, les rôles, la sécurité, la synchronisation, etc.
Sweave et Knitr
Les data scientists qui écrivent leurs articles en LaTeX apprécieront la complexité de Sweave et Knitr, deux packages conçus pour intégrer la puissance de traitement des données de R ou Python avec l’élégance de formatage de TeX. L’objectif est de créer un pipeline qui transforme les données en un rapport écrit complet avec des graphiques, des tableaux et des graphiques.
Le pipeline est censé être dynamique et fluide, mais crée finalement un enregistrement permanent. Au fur et à mesure que les données sont nettoyées, organisées et analysées, les graphiques et les tableaux s’ajustent. Lorsque le résultat est terminé, les données et le texte sont réunis dans un seul package qui regroupe l’entrée brute et le texte final.
Environnements de développement intégrés
Thomas Edison a dit un jour que le génie était composé de 1 % d’inspiration et de 99 % de transpiration. On a souvent l’impression que 99 % de la science des données ne fait que nettoyer les données et les préparer pour l’analyse. Les environnements de développement intégrés (IDE) sont de bonnes bases car ils prennent en charge les langages de programmation courants tels que C # ainsi que certains des langages plus axés sur la science des données comme R. Les utilisateurs d’Eclipse, par exemple, peuvent nettoyer leur code en Java, puis tourner à R pour analyse avec rJava.
Les développeurs Python s’appuient sur Pycharm pour intégrer leurs outils Python et orchestrer l’analyse de données basée sur Python. Visual Studio jongle avec le code normal avec les notebooks Jupyter et les options spécialisées en science des données.
À mesure que les charges de travail de la science des données augmentent, certaines entreprises créent des IDE low-code et no-code qui sont adaptés à une grande partie de ce travail de données. Des outils tels que RapidMiner, Orangeet JASP ne sont que quelques exemples d’excellents outils optimisés pour l’analyse des données. Ils s’appuient sur des éditeurs visuels et, dans de nombreux cas, il est possible de tout faire simplement en faisant glisser les icônes. Si cela ne suffit pas, un peu de code personnalisé peut suffire.
Outils spécifiques au domaine
De nombreux scientifiques des données se spécialisent aujourd’hui dans des domaines spécifiques tels que le marketing ou l’optimisation de la chaîne d’approvisionnement et leurs outils suivent. Certains des meilleurs outils se concentrent étroitement sur des domaines particuliers et ont été optimisés pour des problèmes spécifiques auxquels sont confrontés ceux qui les étudient.
Par exemple, les spécialistes du marketing ont des dizaines de bonnes options qui sont maintenant souvent appelées plateformes de données client. Ils s’intègrent aux vitrines, aux portails publicitaires et aux applications de messagerie pour créer un flux d’informations cohérent (et souvent incessant) pour les clients. Les analyses back-end intégrées fournissent des statistiques clés auxquelles les spécialistes du marketing s’attendent afin de juger de l’efficacité de leurs campagnes.
Il existe maintenant des centaines de bonnes options spécifiques à un domaine qui fonctionnent à tous les niveaux. Voyant, par exemple, analyse le texte pour mesurer la lisibilité et trouver des corrélations entre les passages. AWS Prévoir est optimisé pour prédire l’avenir des entreprises à l’aide de données de séries chronologiques. d’azur Analyseur vidéo applique des techniques d’IA pour trouver des réponses dans les flux vidéo.
Matériel
La montée en puissance des options de cloud computing a été une aubaine pour les data scientists. Il n’est pas nécessaire d’entretenir votre propre matériel uniquement pour exécuter des analyses occasionnellement. Les fournisseurs de cloud vous loueront une machine à la minute au moment où vous en aurez besoin. Cela peut être une excellente solution si vous avez besoin d’une énorme quantité de RAM juste pour une journée. Cependant, les projets ayant un besoin soutenu d’analyses à long terme peuvent trouver qu’il est moins cher d’acheter simplement leur propre matériel.
Dernièrement, des options plus spécialisées pour les travaux de calcul parallèles sont apparues. Les data scientists utilisent parfois unités de traitement graphique (GPU) autrefois conçus pour les jeux vidéo. Google se spécialise Unité de traitement du tenseur (TPU) pour accélérer l’apprentissage automatique. Nvidia appelle certaines de leurs puces « Unités de traitement des données” ou DPU. Certaines startups, telles que d-matrice, conçoivent du matériel spécialisé pour l’intelligence artificielle. Un ordinateur portable peut convenir à certains travaux, mais les grands projets avec des calculs complexes disposent désormais de nombreuses options plus rapides.
Données
Les outils ne sont pas très bons sans les données brutes. Certaines entreprises mettent un point d’honneur à offrir des collections de données organisées. Certains veulent vendre leurs services cloud (AWS, GCP, Azur, IBM). D’autres y voient une forme de redonner (OpenStreetMap). Certaines sont des agences gouvernementales américaines qui considèrent le partage de données comme faisant partie de leur travail (Dépôt fédéral). D’autres sont plus petites, comme les villes qui veulent aider les résidents et les entreprises à réussir (La ville de New York, Baltimore, Miamiou alors Orlando). Certains veulent juste facturer le service. Tous peuvent vous éviter des problèmes de recherche et de nettoyage des données vous-même.
Source link