Fermer

juillet 14, 2022

Pipelines et activités dans Azure Data Factory et Azure Synapse Analytics


Aperçu:

Une usine de données ou un espace de travail Synapse peut avoir plusieurs pipelines. Les pipelines sont des groupes d’activités qui exécutent ensemble une tâche spécifique. L’intégration de données et les services ETL (Extract, Transform and Load) dans le cloud fonctionnent ensemble pour orchestrer le mouvement des données et transformer les données en toute simplicité.

  • Certains workflows peuvent ingérer des données provenant de sources de données disparates (appelées pipelines) que vous pouvez créer et planifier.
  • Un processus ETL complexe peut être construit visuellement avec des flux de données ou avec des services de calcul tels qu’Azure Databricks ou Azure SQL Database.
  • Les données transformées peuvent également être publiées pour être utilisées par des applications d’informatique décisionnelle (BI) dans des magasins de données tels qu’Azure SQL Data Warehouse.
  • L’objectif d’Azure Data Factory est de vous permettre d’organiser les données brutes dans des magasins de données et des lacs de données significatifs pour de meilleures décisions commerciales.

Code ETL gratuit en tant que service : –

Investissez votre temps dans la construction de la logique métier et la transformation des données.

  • Conception ETL sans code
  • Les données de On Premise et d’autres clouds sont copiées vers Azure
  • Transformer les données par étapes

Éléments essentiels:

Le flux de travail Synapse Analytics comprend les composants suivants : –

  • Pipelines
  • Activités
  • Jeux de données
  • Services liés
  • Flux de données
  • Moteurs d’exécution d’intégration

1er

Les composants fonctionnent ensemble pour créer une plate-forme permettant de composer des flux de travail basés sur les données qui déplacent et transforment les données.

2e

Prestations liées :

Un service lié peut être comparé à une chaîne de connexion, qui définit les informations de connexion nécessaires à Data Factory pour se connecter aux ressources extérieures. Les ensembles de données représentent la structure des données, tandis que les services liés définissent la façon dont ils sont connectés à la source de données.

8ème

Ensembles de données :

Un jeu de données est simplement une référence aux entrées et sorties que vous souhaitez utiliser dans vos activités. Voici des exemples d’ensembles de données source et de destination.

4ème

Activité:

Dans un pipeline, les activités représentent les étapes de traitement. Les données peuvent être copiées d’un magasin de données à un autre à l’aide d’une activité de copie, par exemple.

5ème

6ème

Différents types d’activités peuvent être ajoutés, par exemple flux de données, recherche ou procédure stockée, Databricks.

Pipeline:-

Il est possible qu’une usine de données ait plusieurs pipelines. Un pipeline est un regroupement logique d’activités qui exécutent une unité de travail. Une activité dans un pipeline exécute une tâche ensemble.

7ème

Déclencheurs :

L’exécution du pipeline commence lorsqu’un déclencheur détermine qu’il doit être déclenché. Différents types d’événements peuvent être déclenchés par différents types de déclencheurs. Les pipelines peuvent être planifiés ou exécutés immédiatement lorsque l’utilisateur clique sur l’option Ajouter un déclencheur dans le pipeline.

Exécution d’intégration :

Les pipelines Azure Data Factory et Azure Synapse utilisent Integration Runtime (IR) comme infrastructure de calcul. Dans une activité, l’action à effectuer est définie. Les magasins de données et les services de calcul sont définis par un service lié. Les environnements d’exécution d’intégration servent de pont entre les activités et les services liés. Référencé par le service lié, il s’agit de l’environnement de calcul dans lequel l’activité liée s’exécute.

Bonne lecture et apprentissage.






Source link