Fermer

octobre 18, 2021

5 compétences indispensables pour les data scientists


Les avis exprimés par les contributeurs de Entrepreneur sont les leurs.

Vous lisez Entrepreneur United States, une franchise internationale d'Entrepreneur Media.

Les applications d'apprentissage automatique font partie intégrante de nos vies. Il y a de fortes chances que, que nous le réalisions ou non, nous entrons chaque jour en contact avec des modèles d'apprentissage automatique en ligne via des recommandations et des publicités, la détection des fraudes, la recherche, la reconnaissance d'images, etc. En raison de sa prévalence croissante dans notre quotidien, la demande de data scientists a explosé ces dernières années, avec une croissance de l'emploi prévue de 31 % jusqu'en 2029. Pourtant, les data scientists sont toujours en nombre insuffisant. – en 2020, il y avait une pénurie de données scientifiques de 250 000. doivent également avoir un sens aigu des affaires, des compétences en communication et en prise de parole en public. En tant que responsable de la pratique d'apprentissage automatique chez Databricksje supervise une équipe croissante de scientifiques des données et j'ai appris de première main ce qu'il faut pour exceller et se démarquer de la foule.

Connexe : Will Data La science sera en demande à l'avenir ?

Vous êtes impatient de vous lancer dans le développement professionnel et d'apprendre de nouveaux outils pour faire avancer votre carrière, mais vous ne savez pas par où commencer ? Voici cinq compétences à garder à l'esprit pour booster votre carrière et votre profil professionnel en science des données.

1. Mélanger la communication technique et non technique 

Communiquer des concepts techniques à des publics non techniques et techniques est essentiel pour prospérer en tant que data scientist. Tout le travail acharné que vous mettez dans la construction du modèle le plus précis n'aura pas d'importance si vous ne pouvez pas l'expliquer aux autres et les convaincre de l'adopter et de lui faire confiance.

Pour aider les concepts à coller, un conseil que je recommande est d'utiliser des analogies avec des éléments que les gens voient dans leur vie de tous les jours. Par exemple, lorsque j'explique l' distribuée avec Apache Spark, j'illustre le processus en comptant les articles ménagers facilement reconnaissables, comme les bonbons. Dans ce scénario, si j'ai un gros sac de M&Ms, je pourrais à lui seul les compter un par un pour arriver au nombre exact. Un moyen simple de paralléliser cette tâche est d'inviter plusieurs de mes amis – qui peuvent chacun compter une partie des M&M – pour arriver au décompte exact plus efficacement. Maintenant, quand les gens vont au magasin et voient des M&M's, ils ne peuvent s'empêcher de penser à Spark ! Souvent, les gens utilisent des analogies avec des fusées, mais à moins que vous ne travailliez à SpaceX ou à la NASA, vous ne rencontrerez probablement pas de fusées dans votre vie quotidienne, ce qui rend plus difficile la tenue de votre analogie.

En communiquant efficacement et en expliquant terminologie d'une manière que tout le monde peut comprendre, vous augmenterez la transparence des données dans l'ensemble de l'organisation et vous assurerez que tout le monde comprend la valeur que vous fournissez.

2. Toujours apprendre 

Bien qu'il existe un besoin évident de plus de talents, de nombreux programmes de formation traditionnels n'enseignent pas toutes les compétences nécessaires pour être un scientifique des données. Par exemple, la plupart des cours universitaires et Coursera que j'ai suivis étaient axés sur l'apprentissage et l'application de techniques permettant d'améliorer les performances du modèle par rapport aux références (par exemple, maximiser la précision sur ImageNet). Cependant, lorsque je suis entré dans l'industrie, j'ai appris que ces processus n'étaient qu'une petite pièce du puzzle. Vous devez vous préoccuper de la manière dont les données ont été collectées (et étiquetées), des contraintes de déploiement et de l'infrastructure pour servir le modèle, des pipelines de surveillance et de recyclage du modèle, etc. L'article de Google "Hidden Technical Debt in Machine Learning Systems" décrit ce phénomène. Dans cet article, ils rapportent qu'environ 5 % des systèmes de ML du monde réel sont composés de « code ML », tandis que le reste est du « code de colle » pour prendre en charge ces systèmes de ML.

Alors, comment apprenez-vous toutes les compétences nécessaires pour être un data scientist et se tenir au courant des dernières innovations ? Toujours apprendre. Je vis ma vie selon la philosophie selon laquelle vous apprenez quelque chose de nouveau de tous ceux que vous rencontrez. Je recommande fortement de créer un réseau grâce à des collègues et des pairs, d'assister à des rencontres et de se familiariser avec divers aspects du domaine du ML. J'ai continué à suivre des cours et à participer à des groupes d'étude de lecture réguliers même des années après avoir terminé mes études supérieures ! Je recommande également de vous abonner à The Batch – un résumé hebdomadaire gratuit des nouveautés de la recherche sur le ML et des applications innovantes du ML dans l'industrie (et, plus important encore, des domaines où le ML et les politiques ont besoin améliorer).

Le domaine des données évolue si rapidement — en informatiquela demi-vie typique de vos connaissances est de sept ans, mais elle est encore plus courte que celle en science des données. L'innovation technologique continuera de grimper à un rythme rapide, mais ne vous sentez pas dépassé ou intimidé. Continuez simplement à apprendre à un rythme soutenu et vous aurez toujours de nouvelles compétences à appliquer.

3. Commencer simplement et établir une base de référence

Avec les progrès rapides du ML, les data scientists sont avides d'utiliser les outils les plus récents et les plus performants. Cependant, je dis toujours aux data scientists de commencer simplement et d'établir une base de référence avec les métriques associées. Cette ligne de base doit être très naïve, comme prédire la valeur moyenne pour les problèmes de régression (par exemple, prédire le prix moyen d'une maison) ou la classe la plus fréquente pour les problèmes de classification (par exemple, toujours prédire « non »). Je ne peux pas vous dire le nombre de fois où j'ai vu quelqu'un se vanter : « Mon modèle d'apprentissage automatique est précis à 90 % pour prédire le problème XYZ » seulement ensuite pour que quelqu'un d'autre le fasse remarquer : « Si vous prédisez toujours « non », vous sera précis 99% du temps." L'établissement d'une référence et de mesures d'évaluation claires et pertinentes pour le produit est crucial pour gagner la confiance de vos systèmes de ML. Si votre métrique d'évaluation est la précision, la méthode dans laquelle vous prédisez systématiquement « non » peut maximiser la précision, mais il s'agit d'un modèle dénué de sens. Dans ce cas, le score F1 pourrait être une mesure appropriée qui équilibre à la fois la précision et le rappelet pas seulement le nombre absolu de prédictions correctes. Une fois que vous avez établi une référence, traitez-la comme une limite inférieure pour les performances prédictives de votre système d'apprentissage automatique.

Connexe : Pourquoi votre startup a besoin de la science des données

4. Poser les bonnes questions 

Je sais que les data scientists sont impatients de créer des modèles, mais comprendre les données, parler aux parties prenantes et aux experts en la matière, et poser continuellement des questions sur les données via une analyse exploratoire des données est essentiel pour fournir la bonne solution pour les affaires.

Au lieu de passer directement à la résolution du problème technique, prenez du recul et comprenez le problème commercial que vous essayez de résoudre. Par exemple, au lieu de discuter si vous devez utiliser PyTorch ou TensorFlow, demandez : « Comment ce modèle sera-t-il utilisé ? Comment quantifier le « succès » de ce projet ? » Réfléchir aux réponses dès le départ rapportera des dividendes plus tard dans le projet.

Vous devriez également poser des questions sur vos données, telles que la manière dont elles sont collectées, comment elles doivent (et ne doivent pas) être utilisées, etc. Je recommande vivement l'article "Datasheets for Datasets" de Gebru et al pour trouver l'inspiration sur les bonnes questions à poser sur les données.

5. Identifier votre spécialisation

Lorsque j'entretiens des candidats pour mon équipe, je recherche des personnes qui peuvent enrichir les compétences existantes de l'équipe. table. Par essence, je cherche à construire un ensemble humain.

Ce qui distingue vraiment les candidats, c'est lorsqu'ils ont une passion ou une expertise dans un domaine donné. Cela peut être dans un aspect particulier du ML, tel que la PNL ou la vision par ordinateur, ou dans un secteur donné, tel que la vente au détail, mais le différenciateur essentiel est de vous établir en tant qu'expert en la matière et de rester à jour dans ce domaine. De cette façon, vous devenez la personne de référence pour un sujet particulier et vous vous rendez indispensable.

Au fur et à mesure que les outils de science des données progressent, en particulier avec les solutions low-code et no-code, perfectionnez vos compétences commerciales en plus de maîtriser vos compétences techniques. vous permettra de vous démarquer de la foule et d'offrir continuellement la meilleure valeur pour votre temps.

Désormais, lorsque vous abordez un nouveau projet, rassemblez le tout : assurez-vous de poser les bonnes questions commerciales et de données, établissez une référence et les métriques associées, apprenez quelque chose de nouveau pendant votre travail, tirez parti de votre spécialisation et communiquez efficacement les résultats avec les parties prenantes. Si vous pouvez accomplir tout cela, vous serez une rockstar.

Connexe : Comment la science des données peut vous aider à développer votre entreprise plus rapidement




Source link