Profitez des fenêtres de votre pipeline de science des données Spark
Windows peut effectuer des calculs sur une certaine période de temps autour de l'enregistrement actuel dans votre pipeline de science des données Spark. Les fenêtres sont des fonctions SQL qui vous permettent d'accéder aux données avant et après l'enregistrement en cours pour effectuer des calculs. Ils peuvent être décomposés en fonctions de classement et d'analyse et, comme les fonctions d'agrégation. Spark fournit les éléments suivants:
Fonctions de classement
Commande | Renvoie la valeur x dans une partition de fenêtre |
row_number () | numéro séquentiel à partir de 1 |
rank () | rang des lignes avec des espaces |
dense_rank () | rang des lignes sans aucun espace. |
percent_rank () | rang centile des lignes |
ntile (int) | réparti les lignes en nombre spécifié de compartiments à peu près égaux |
cume_dist () | distribution cumulative des valeurs |
Fonctions analytiques
Commande | Renvoie la valeur x dans une partition de fenêtre |
lag () | "décalages" des lignes avant la ligne actuelle ou null |
lead () | lignes «décalées» après la ligne actuelle ou null |
Réglage
La plupart des considérations de réglage autour de Spark concernent les actions effectuées sur le cluster par les exécuteurs. Ces transformations incluent map, filter, groupBy, sortBy, sample, randomSplit, union, distinct, coalesce, repartition. Le pilote représente une seule machine et peut être un goulot d'étranglement. Malheureusement, le pilote effectue des actions qui incluent des fonctions de classement, d'analyse et d'agrégation. Une bonne pratique consiste à effectuer ces actions dans votre pipeline de mungines de données avant que les scientifiques des données ne les utilisent dans leur modélisation.
Résumé
L'avenir du Big Data
Avec quelques conseils, vous pouvez créer une plate-forme de données qui convient aux besoins de votre organisation et qui tire le meilleur parti de votre capital de données.
Le réglage de Spark pour votre pipeline de machine learning peut être un processus complexe et long. . Le stockage et le calcul jouent un rôle différent pour votre cluster Spark à différentes étapes de votre pipeline d'apprentissage machine. Dans cet article j'explique comment optimiser votre pipeline d'apprentissage automatique Spark pour les agrégations. Les considérations de performances pour le fenêtrage sont similaires.
Source link