Fermer

Spark

Profitez des fenêtres de votre pipeline de science des données Spark

Windows peut effectuer des calculs sur une certaine période de temps autour de l'enregistrement actuel dans votre pipeline de science des données Spark. Les fenêtres sont des fonctions SQL qui vous permettent d'accéder aux données avant et après l'enregistrement en cours pour effectuer des calculs. Ils peuvent être décomposés en fonctions de classement et d'analyse et, comme les fonctions d'agrégation. Spark fournit les éléments suivants: Fonctions de classement Commande Renvoie la valeur x dans une partition de fenêtre row_number () numéro séquentiel à partir de 1 rank () rang des lignes avec des espaces dense_rank () […]

mai 26, 2020

Lire l'article

Réglez les cadrans pour optimiser votre pipeline de machine learning Spark

Le réglage de Spark pour votre pipeline d'apprentissage machine peut être un processus complexe et long. Le stockage et le calcul jouent un rôle différent pour votre cluster Spark à différentes étapes de votre pipeline d'apprentissage machine. Les valeurs par défaut des étincelles ne sont jamais la bonne voie à suivre. Il est plus logique de savoir quels paramètres sont les plus efficaces aux différentes étapes de votre pipeline: fusion de données, formation et modélisation. Comment démarrer Identifiez le type de tâche que vous effectuez. Plus précisément, Spark va-t-il exécuter le travail sur le pilote ou […]

avril 27, 2020

Lire l'article

Nouvel outil Open Source Spark Toolkit

Nous venons de publier notre boîte à outils Progress Spark pour la communauté open source, facilitant plus que jamais l'application des meilleures pratiques et la modernisation de vos applications OpenEdge. Progress Spark Toolkit est un ensemble collaboratif de code ABL et de meilleures pratiques. sur des décennies de stratégies de modernisation tirées de Progress Services et des informations en continu de l'ingénierie Progress. Auparavant disponible uniquement dans notre organisation de services dans le cadre d'un engagement de modernisation, nous venons de mettre à disposition la totalité de la boîte à outils Progress Spark en tant qu'offre […]

août 28, 2018

Lire l'article

Utilisation d'AWS Glue et Spark avec MongoDB via le pilote JDBC

Apprenez comment accéder à MongoDB en utilisant un pilote DataDirect JDBC avec AWS Glue AWS Glue AWS Glue est un service d'extraction, de transformation, de chargement (ETL) disponible dans les services Web hébergés d'Amazon. Glue est conçu pour permettre aux utilisateurs de connecter facilement leurs données dans divers magasins de données, de les modifier et de les nettoyer au besoin, puis de charger les données dans un magasin approvisionné AWS pour obtenir une vue unifiée. Annoncé en 2016 et officiellement lancé à l'été 2017, Glue simplifie grandement le lourd processus de configuration et de maintenance des […]

avril 6, 2018

Lire l'article