Fermer

octobre 19, 2022

Introduction à AWS GLUE : un outil ETL cloud


Glue est un service ETL (extraction, transformation et chargement) entièrement géré qui permet de catégoriser vos données, de les nettoyer, de les enrichir et de les déplacer de manière fiable entre différents magasins de données et flux de données de manière simple et rentable. AWS Glue se compose d’un référentiel central de métadonnées connu sous le nom de catalogue de données AWS Glue, d’un moteur ETL qui génère automatiquement du code Python ou Scala, et d’un planificateur flexible qui gère la résolution des dépendances, la surveillance des tâches et les nouvelles tentatives.

Console AWS Glue

AWS Glue fonctionne très bien avec des données structurées et semi-structurées. Il est sans serveur, il n’y a pas d’infrastructure à configurer ou à gérer. Un cadre dynamique est introduit, que vous pouvez utiliser dans vos scripts ETL.

Classificateurs

Le classificateur spécifie le schéma pour un type de fichier spécifique.

Connexions

Les connexions stockent les métadonnées de connexion requises pour établir la connexion entre la colle et la source.

Crawlers

Amazon Web Services - Évitez les pannes du centre de contact : planifiez votre mise à niveau vers Amazon Connect

Un robot analyse un dossier et le compare à des classificateurs pour identifier le fichier source. Si votre robot d’exploration s’exécute plusieurs fois, il recherchera des fichiers ou des tables nouvellement créés ou modifiés dans votre magasin de données.

Catalogue de données

Les tâches Glue peuvent accéder aux données de Data Catalog, un référentiel central dans AWS.

Aws Glue Architecture

Montre nuage

Il s’agit d’un service de surveillance fourni par AWS pour suivre les activités.

Flux de travail

Le workflow exécute les artefacts de manière séquentielle définie par l’utilisateur.

Travaux de colle

La tâche AWS Glue est un script qui se connecte aux données source, les traite et les écrit dans les données cibles. Le travail de collage utilise le langage python et scala. AWS Glue peut écrire des fichiers de sortie dans plusieurs formats de données, notamment JSON, CSV, ORC (Optimized Row Columnar), Apache Parquet et Apache Avro.

    • Il existe trois types de tâches dans Glue : Étincelle, ETL de diffusion en continuet Coque Python.
    • ETL de diffusion : Une tâche ETL de streaming est similaire à une tâche Spark, sauf qu’elle exécute un ETL sur des flux de données. Il utilise le framework Apache Spark Structured Streaming. Certaines fonctionnalités de tâche Spark ne sont pas disponibles pour la diffusion en continu de tâches ETL.
    • Shell Python : Une tâche de shell Python exécute des scripts Python en tant que shell et prend en charge une version Python qui dépend de la version AWS Glue que vous utilisez. Vous pouvez utiliser ces tâches pour planifier et exécuter des tâches qui ne nécessitent pas d’environnement Apache Spark.
    • Étincelle: AWS Glue gère la tâche Spark exécutée dans un environnement Apache Spark. Dans les jobs Spark, les scripts peuvent être définis comme suit :
      • Intégrer des scripts
      • Ajout d’un travail de colle (déjà écrit en local et en le téléchargeant)
      • Modification du script spark dans le AWS glue.

Pour créer le travail de collage, nous devons définir certains paramètres :

    • Nom du travail
    • Données source
    • Type de travailleur
    • Nombre de travailleurs
    • Version étincelle

Pour plus d’informations, vous pouvez passer par le documentation d’AWS.






Source link

octobre 19, 2022