Fermer

RDD

RDD vs DataFrame vs Dataset / Blogs / Perficient

RDD vs DataFrame vs Dataset / Blogs / Perficient

Dans le contexte d’Apache Spark, RDD, DataFrame et Dataset sont des abstractions différentes permettant de travailler avec des données structurées et semi-structurées. Voici une brève définition de chacun : RDD (ensemble de données distribuées résilientes) : RDD est l’abstraction de base de Spark. Il représente une collection immuable et distribuée d’objets qui […]

Lire

Opérations Spark RDD

Opérations Spark RDD

Une compréhension globale de la transformation et de l’action de Spark est cruciale pour un code Spark efficace. Ce blog donne un aperçu des aspects fondamentaux de Spark. Avant de plonger dans la transformation et l’action de Spark, jetons un coup d’œil à RDD et Dataframe. Ensemble de données distribuées […]

Lire