Fermer

juillet 12, 2022

Travailler avec différents formats de données dans PySpark

Travailler avec différents formats de données dans PySpark


Apache Spark prend en charge de nombreux formats de données différents tels que Parquet, JSON, CSV, SQL, sources de données NoSQL et fichiers texte brut. Généralement, nous pouvons classer ces formats de données en trois catégories : données structurées, semi-structurées et non structurées.

Blog Illustration 01 Copie

Faisons un bref sur chaque format de données :

Données structurées :

Un ensemble de données structurées est un ensemble de données Données ce est bien organisé Soit dans la formulaire de les tables ou quelques autre façon est un structuré Les données Positionner. Ces données peut être facilement manipulé à l’aide de tableaux ou d’une autre méthode. Ce type de source de données définit un schéma pour ses données, essentiellement ces données stockées dans des lignes et des colonnes faciles à gérer. Cette Les données sera être stockée et accessible dans la formulaire de fixé format.

Par exemple, les données stockées dans une base de données relationnelle avec plusieurs lignes et colonnes.

Données non structurées :

Un ensemble de données non structuré est une donnée qui n’a pas de structure définie, qui n’est pas organisée de manière prédéfinie. Cela peut avoir des données irrégulières et ambiguës.

Par exemple, collections de documents, factures, enregistrements, e-mails, applications de productivité.

Données semi-structurées :

Un ensemble de données semi-structurées peut être une donnée qui n’a pas de format défini ou de schéma défini, pas seulement la structure tabulaire des modèles de données. Cette Les données sources structures par enregistrement toutefois net nécessairement ont un biendéfini schéma s’étendant tout enregistrements.

Par exemple, JSON et XML.

Lecture de fichiers de formats de données différents dans PySpark

Nous allons maintenant voir comment lire divers formats de fichiers dans PySpark (CSV, Json, Parquet, ORC).

CSV (valeurs séparées par des virgules) :

UN CSV dossier est un texte dossier ce permet Les données à être enregistré dans un table structuré format.

Ici, nous allons lire un seul fichier csv :

CSv1

Ce code lira le fichier CSV pour le chemin de fichier donné présent dans le répertoire de travail actuel, ayant comme délimiteur une virgule ‘,’ et la première ligne comme en-tête.

CSv2

JSON :

JSON est un format de fichier standard ouvert et un format d’échange de données qui utilise du texte lisible par l’homme pour stocker et transmettre des objets de données constitués de paires attribut-valeur et de tableaux.

Ici, nous allons lire un seul fichier JSON :

Json1

Voici la sortie pour la lecture d’un seul fichier JSON.

Json2

PARQUET:

Apache Parquet est un format de fichier de données open source orienté colonne conçu pour un stockage et une récupération efficaces des données. Pour gérer des données complexes en vrac, il fournit des schémas de compression et d’encodage efficaces avec des performances améliorées.

Ici nous allons lire un seul fichier PARQUET :

Parquet1

Voici la sortie pour la lecture d’un seul fichier PARQUET.

Parquet2

ORC (Optimized Row Columnar):

Les fichiers ORC sont une méthode très efficace de stockage des données Hive. Quelqu’un développé la format à surmonter la limites de autre Ruche dossier formats. Lorsque Spark lit, écrit et traite des données, les fichiers ORC améliorent les performances.

Orc1

Voici la sortie pour la lecture d’un seul fichier PARQUET.

Orc2






Source link