Travailler avec différents formats de données dans PySpark

Apache Spark prend en charge de nombreux formats de données différents tels que Parquet, JSON, CSV, SQL, sources de données NoSQL et fichiers texte brut. Généralement, nous pouvons classer ces formats de données en trois catégories : données structurées, semi-structurées et non structurées.
Faisons un bref sur chaque format de données :
Données structurées :
Un ensemble de données structurées est un ensemble de données Données ce est bien organisé Soit dans la formulaire de les tables ou quelques autre façon est un structuré Les données Positionner. Ces données peut être facilement manipulé à l’aide de tableaux ou d’une autre méthode. Ce type de source de données définit un schéma pour ses données, essentiellement ces données stockées dans des lignes et des colonnes faciles à gérer. Cette Les données sera être stockée et accessible dans la formulaire de fixé format.
Par exemple, les données stockées dans une base de données relationnelle avec plusieurs lignes et colonnes.
Données non structurées :
Un ensemble de données non structuré est une donnée qui n’a pas de structure définie, qui n’est pas organisée de manière prédéfinie. Cela peut avoir des données irrégulières et ambiguës.
Par exemple, collections de documents, factures, enregistrements, e-mails, applications de productivité.
Données semi-structurées :
Un ensemble de données semi-structurées peut être une donnée qui n’a pas de format défini ou de schéma défini, pas seulement la structure tabulaire des modèles de données. Cette Les données sources structures par enregistrement toutefois ne‘t nécessairement ont un bien–défini schéma s’étendant tout enregistrements.
Par exemple, JSON et XML.
Lecture de fichiers de formats de données différents dans PySpark
Nous allons maintenant voir comment lire divers formats de fichiers dans PySpark (CSV, Json, Parquet, ORC).
CSV (valeurs séparées par des virgules) :
UN CSV dossier est un texte dossier ce permet Les données à être enregistré dans un table structuré format.
Ici, nous allons lire un seul fichier csv :
Ce code lira le fichier CSV pour le chemin de fichier donné présent dans le répertoire de travail actuel, ayant comme délimiteur une virgule ‘,’ et la première ligne comme en-tête.
JSON :
JSON est un format de fichier standard ouvert et un format d’échange de données qui utilise du texte lisible par l’homme pour stocker et transmettre des objets de données constitués de paires attribut-valeur et de tableaux.
Ici, nous allons lire un seul fichier JSON :
Voici la sortie pour la lecture d’un seul fichier JSON.
PARQUET:
Apache Parquet est un format de fichier de données open source orienté colonne conçu pour un stockage et une récupération efficaces des données. Pour gérer des données complexes en vrac, il fournit des schémas de compression et d’encodage efficaces avec des performances améliorées.
Ici nous allons lire un seul fichier PARQUET :
Voici la sortie pour la lecture d’un seul fichier PARQUET.
ORC (Optimized Row Columnar):
Les fichiers ORC sont une méthode très efficace de stockage des données Hive. Quelqu’un développé la format à surmonter la limites de autre Ruche dossier formats. Lorsque Spark lit, écrit et traite des données, les fichiers ORC améliorent les performances.
Voici la sortie pour la lecture d’un seul fichier PARQUET.
Source link