Fermer

avril 24, 2018

Arrêtez de perdre du temps dans Excel pour la gestion des données – Focus on R


* Ce message a été publié pour la première fois en mars 2016 via ANNUITAS.com

Si vous avez parlé avec un data scientist au cours des dernières années, vous l'avez probablement entendu parler de "R." R est une programmation statistique langage créé en 1993 et ​​est la modernisation du langage de programmation classique "S." Selon la plus récente enquête salariale O'Reilly Data Scientist R est utilisé par plus de moitié de R est incroyablement efficace parce que quelques lignes de code peuvent complètement et à plusieurs reprises ETL (qui est le jargon de la science des données pour extraire, Transformer et Charger) des ensembles de données contenant des centaines de milliers de lignes et de colonnes. Depuis l'apprentissage de R, j'ai réussi à minimiser l'ETL nécessaire pour un projet de données récurrentes de dix heures de travail à seulement dix minutes. Étant donné le potentiel incroyable de R d'augmenter la productivité en réduisant le temps nécessaire à la réalisation de projets de données, toutes les entreprises manipulant des données ou des statistiques en 2016 devraient tirer parti de R ou d'un outil de programmation statistique similaire. Je suis sûr que beaucoup de sceptiques liront ce qui précède et penseront "Pourquoi devrais-je apprendre R? Je fais mon nettoyage et mon reporting de données dans Excel depuis des années et je me débrouille très bien. »Certainement, Excel est un outil incroyablement précieux pour pouvoir visualiser des ensembles de données complets, effectuer des changements ponctuels et extraire quelques statistiques simples. , mais ce sont les seules choses qu'Excel fait vraiment efficacement.

Au moment où votre ensemble de données dépasse 50 000 entrées, vous passerez plus de temps à attendre qu'Excel soit chargé que vous ne passerez réellement à travailler. C'est là que R brille vraiment: dans les deux minutes, il faudrait à Excel pour ouvrir la feuille de calcul, R peut charger votre feuille de calcul et compléter tout ETL dont vous avez besoin.

La vitesse n'est pas la seule raison outil que Excel. Voici peu des points de douleur de données que j'ai utilisé R pour résoudre:

  • Dédupliqué des données basées sur plusieurs champs tout en priorisant un champ par rapport aux autres
  • Tableur fusionné à ajouter plus de données à chaque entrée basée sur un ou plusieurs champs
  • Recombined une énorme base de données qui a été divisée en plusieurs feuilles de calcul
  • Réorienté les données et optimisé pour une utilisation dans Tableau
  • Mettre toutes les dates dans un ensemble de données dans le même format
  • Correction d'étiquettes pour chaque enregistrement afin qu'elles puissent être catégorisées et rapportées correctement.

Comment implémenter R? Est-ce que ça coûte quelque chose?

La meilleure partie de R est que c'est gratuit. Il vous suffit de télécharger R depuis le site Web R-Project de l'installer et vous voilà prêt à partir! Maintenant, si vous ouvrez R, vous remarquerez que l'interface est plutôt spartiate. Pour cette raison, je recommande également d'installer RStudio un autre produit gratuit qui rend R beaucoup plus facile de travailler avec. RStudio garde trace de votre historique de codage, vous permet d'écrire du code dans un environnement séparé de la console (où vous entrez du code), recherche les fichiers d'aide R, et garde la trace des paquets que vous avez activés.

: apprendre la langue. Bien que vous deviez passer quelques semaines à étudier le code, je vous encourage à considérer cela comme un investissement plutôt que comme un travail supplémentaire. Les nuits tardives ou les week-ends fixant de grands ensembles de données disparaîtront complètement une fois que vous maîtriserez R.

Des ressources supplémentaires sont disponibles pour vous aider à apprendre la langue plus efficacement:

L'astuce est vraiment d'apprendre à R, "pour ainsi dire. En particulier, je recommande les cours de Johns Hopkins pour atteindre cet objectif. Les professeurs sont bien informés, les conférences sont approfondies, les projets sont pertinents, et le meilleur de tout c'est gratuit (à moins que vous ne vouliez payer pour la certification de l'achèvement de votre page LinkedIn).

Un brillant avenir à venir – [19659005] Ce qui précède gratte à peine la surface de ce que R peut faire. J'apprends encore des choses nouvelles et étonnantes à faire avec la langue tous les jours. Heureusement, ANNUITAS s'intéresse autant à l'outil que moi et a été assez aimable pour faciliter ma maîtrise de la langue. Nous avons investi dans l'avenir de R en devenant un bienfaiteur de la R Foundation un groupe à but non lucratif voué à assurer le développement continu de R aux côtés d'autres grandes entreprises comme Merck et Shell.

plus de gens adoptent la langue pour leurs entreprises et projets de recherche, leurs innovations seront tissées dans la tapisserie déjà complexe de R, en améliorant et en colorant les expériences de toute sa base d'utilisateurs. Il n'y a pas de meilleur moment pour intégrer R dans votre flux de travail que maintenant.

Auteur: Scott Parent @ ScottGParent Gestionnaire de stratégies d'optimisation, ANNUITAS




Source link