Fermer

juillet 24, 2018

Choisir un langage de programmation de Big Data primaire


Les entreprises du monde entier ont passé ces dernières années à réagir, d'une manière ou d'une autre, à l'émergence du Big Data en tant que technologie phare de la journée. Pour les DSI qui commencent tout juste à développer une infrastructure de Big Data pour leur organisation, il est important de savoir que les décisions qu'ils prennent aujourd'hui façonneront le destin technologique de leur entreprise dans un avenir prévisible. Une des plus importantes de ces décisions est le langage de programmation à choisir pour soutenir leurs initiatives Big Data.

À première vue, un langage de programmation peut sembler une décision insignifiante dans le grand schéma d'une opération Big Data. Le choix, cependant, peut jouer un rôle démesuré dans le coût, l'utilité, et le succès ou l'échec final de l'opération. C'est aussi un choix qui exige une bonne dose de compréhension de haut niveau de la part du DPI pour bien faire les choses. Pour vous aider, voici un aperçu des mérites et des inconvénients des langages de programmation Big Data les plus utilisés

R

R est un langage de programmation open source utilisé par les statisticiens depuis des décennies. En tant que tel, il est très bien adapté aux opérations d'analyse de données et a une base d'utilisateurs très large. Cette base d'utilisateurs comprend une communauté de développeurs qui ont contribué plus de 10 000 paquets préconstruits et près de 2 millions de fonctions à CRAN, l'archive R open source. Il y a des chances que, quoi que votre entreprise tente de construire dans R, quelqu'un (ou plusieurs personnes) l'ait déjà fait.

Cependant, R n'est pas excellent dans de nombreuses applications de programmation à usage général. Par conséquent, partout où R est utilisé, ce n'est généralement pas le seul langage que vous trouverez. Dans les environnements de production utilisant R, vous trouverez souvent une équipe parallèle de développeurs traduisant les modèles statistiques de R en Python ou Scala avant de les utiliser largement. C'est une distinction importante à noter car elle peut augmenter les coûts de développement et d'exploitation globaux.

Python

Si vous avez déjà des data scientists à votre service, il y a de fortes chances pour qu'ils connaissent déjà le langage de programmation Python. C'est un langage de programmation orienté objet simple et facile à apprendre. Cette simplicité fait partie de la raison pour laquelle Python est le [1965-1910] quatrième langage de programmation le plus utilisé au monde. Cela signifie également qu'il devrait être plus rapide et moins coûteux de construire ou de former une équipe de développeurs pour votre opération de Big Data.

Python a, bien sûr, de sérieux inconvénients. Bien que presque toutes les plates-formes Big Data prennent en charge nativement Python, ce support n'est pas toujours complet. Par exemple, si votre organisation est en cours de développement pour Apache Spark, vous pouvez constater que les toutes dernières fonctionnalités de la plate-forme ne sont pas disponibles via Python. Cela rend Python un non-démarreur comme une option pour toute initiative de Big Data qui vise à rester à la fine pointe.

Scala

Scala est un langage de programmation qui fonctionne sous Java Virtual Machine (JVM ), ce qui en fait une solution naturelle dans presque tous les environnements informatiques existants. Il fonctionne exceptionnellement bien avec de grands ensembles de données répartis, ce qui en fait un langage de programmation de haut niveau flexible qui évoluera bien dans le temps sans sacrifier la vitesse. Dans les tests Scala vs Python performance il laisse Python dans la poussière, effectuant jusqu'à 10 fois plus vite pour des tâches similaires.

Comme pour les autres options, Scala ne convient pas dans tous les cas , non plus. C'est un langage relativement complexe, créant une courbe d'apprentissage abrupte pour les nouveaux arrivants. En outre, Scala peut parfois être presque trop flexible, offrant tellement d'options aux développeurs que la collaboration peut devenir difficile. Pour un grand projet, avoir plusieurs développeurs contribuant au code peut entraîner un désordre. Cela augmente le fardeau des gestionnaires de projet pour fournir des pratiques exemplaires prédéfinies et instituer une révision rigoureuse pour les maintenir.

Faire le choix

Maintenant, il devrait être évident pourquoi il n'y a pas de choix clair pour les langages de programmation Big Data. Après tout, chaque option est uniquement adaptée à des objectifs spécifiques et adaptée à différents environnements. C'est en partie la raison pour laquelle il n'est pas inhabituel de trouver des opérations Big Data qui utilisent un mélange de ces langages populaires. Pour un DSI qui construit une initiative de Big Data à partir de rien, c'est une bonne idée de planifier pour celle qui a le plus de sens dans le contexte des circonstances. Cela simplifiera l'embauche, réduira les coûts et simplifiera les tâches de gestion de projet. Cela seul devrait faire un bon départ pour un nouveau futur, basé sur Big Data.

Pour en savoir plus sur ce qu'il faut penser lors de la création d'un plan Big Data pour votre entreprise, lisez Six Considérations pour Big Données et analyses . Pour en savoir plus sur l'impact du choix de la gestion des données sur les processus métier de base, lisez Les 3 principaux problèmes de gestion des données avec les projets ERP et comment les adresser

<! – Commentaires ->




Source link