Fermer

mai 26, 2020

Profitez des fenêtres de votre pipeline de science des données Spark


Windows peut effectuer des calculs sur une certaine période de temps autour de l'enregistrement actuel dans votre pipeline de science des données Spark. Les fenêtres sont des fonctions SQL qui vous permettent d'accéder aux données avant et après l'enregistrement en cours pour effectuer des calculs. Ils peuvent être décomposés en fonctions de classement et d'analyse et, comme les fonctions d'agrégation. Spark fournit les éléments suivants:

Fonctions de classement

Commande Renvoie la valeur x dans une partition de fenêtre
row_number () numéro séquentiel à partir de 1
rank () rang des lignes avec des espaces
dense_rank () rang des lignes sans aucun espace.
percent_rank () rang centile des lignes
ntile (int) réparti les lignes en nombre spécifié de compartiments à peu près égaux
cume_dist () distribution cumulative des valeurs

Fonctions analytiques

Commande Renvoie la valeur x dans une partition de fenêtre
lag () "décalages" des lignes avant la ligne actuelle ou null
lead () lignes «décalées» après la ligne actuelle ou null

Réglage

La plupart des considérations de réglage autour de Spark concernent les actions effectuées sur le cluster par les exécuteurs. Ces transformations incluent map, filter, groupBy, sortBy, sample, randomSplit, union, distinct, coalesce, repartition. Le pilote représente une seule machine et peut être un goulot d'étranglement. Malheureusement, le pilote effectue des actions qui incluent des fonctions de classement, d'analyse et d'agrégation. Une bonne pratique consiste à effectuer ces actions dans votre pipeline de mungines de données avant que les scientifiques des données ne les utilisent dans leur modélisation.

Résumé

 Data Intelligence - L'avenir du Big Data
L'avenir du Big Data

Avec quelques conseils, vous pouvez créer une plate-forme de données qui convient aux besoins de votre organisation et qui tire le meilleur parti de votre capital de données.

Obtenez le guide

Le réglage de Spark pour votre pipeline de machine learning peut être un processus complexe et long. . Le stockage et le calcul jouent un rôle différent pour votre cluster Spark à différentes étapes de votre pipeline d'apprentissage machine. Dans cet article j'explique comment optimiser votre pipeline d'apprentissage automatique Spark pour les agrégations. Les considérations de performances pour le fenêtrage sont similaires.

À propos de l'auteur <! -: dcallaghan, Architecte de solutions ->

En tant qu'architecte de solutions chez Perficient, j'apporte vingt ans d'expérience en développement et je ' Je pratique actuellement Hadoop / Spark, la blockchain et le cloud, le codage en Java, Scala et Go. Je suis certifié et travaille beaucoup avec Hadoop, Cassandra, Spark, AWS, MongoDB et Pentaho. Plus récemment, j'ai apporté des solutions de blockchain intégrées (en particulier Hyperledger et Ethereum) et de Big Data au cloud en mettant l'accent sur l'intégration de produits de données modernes tels que HBase, Cassandra et Neo4J en tant que référentiel hors blockchain.

cet auteur




Source link