Fermer

août 4, 2022

Flux de données dans Azure Data Factory

Flux de données dans Azure Data Factory


Aperçu:

Les flux de données sont l’une des fonctionnalités d’Azure Data Factory qui permet aux ingénieurs de données de développer une logique de transformation de données dans une approche graphique sans écrire de code. Les flux de données résultants peuvent ensuite être exécutés en tant qu’activités dans les pipelines Azure Data Factory qui utilisent des clusters Spark scale-out. Vos flux de données s’exécuteront sur votre propre cluster d’exécution pour un traitement de données évolutif. ADF gère en interne toute la traduction du code, l’optimisation des étincelles et l’exécution de la transformation. Les activités de flux de données peuvent être opérationnalisées via les capacités existantes de planification, de contrôle, de flux et de surveillance de Data Factory.

Il existe deux types de flux de données :

  • Cartographier le flux de données
  • Flux de données

Nous commençons notre discussion avec Mapping Data flows

Cartographier le flux de données –

  • Les flux de données de mappage sont des transformations de données conçues visuellement dans Azure Data Factory.
  • Lorsqu’il existe une situation telle que vous devez effectuer des transformations à l’aide de deux jeux de données ou plus, vous utilisez un flux de données de mappage.
  • Vous pouvez effectuer plusieurs transformations telles que Filter, JOIN, Aggregate, Union, Lookup, Sort, etc. à l’aide de flux de données de mappage.
  • Le mappage des flux de données peut être exécuté dans les pipelines ADF à l’aide d’activités de flux de données.
  • Azure Data Factory gère la transformation du code et l’exécution de Mapping Data Flow en arrière-plan.
  • L’activité de mappage des flux de données peut être créée individuellement ou dans un pipeline Azure Data Factory.

Étapes pour créer un flux de données de mappage :

  1. Ouvrez Azure Data Factory à l’aide du portail Azure, puis cliquez sur Auteur et moniteur

Z 1 (2)

Clique sur le Auteur puis cliquez sur l’option Flux de données. En cliquant sur trois points sélectionnez Nouveau flux de données option.

  1. Sélectionner Cartographier le flux de données. Cliquez sur

Z 2 (2)

Étapes pour créer une logique de transformation dans le canevas de flux de données :

Une fois que vous avez créé votre flux de données, vous serez automatiquement redirigé vers le canevas du flux de données.

Noter: L’hypothèse est que vous connaissez déjà les éléments de base d’une usine de données, comme la création de services liés, de pipelines, etc. Cliquez ici

  1. Dans le canevas de flux de données, ajoutez une source en cliquant sur le Ajouter une source

Z 3 (2)

  1. Nommez votre source. Cliquer sur Nouveau pour créer un nouveau jeu de données source.

Z 4 (2)

  1. Choisir Stockage Blob Azure. Cliquez sur

Z 6 (2)

  1. Choisir Texte délimité. Cliquez sur Continuer.

Z 7 (2)

  1. Nommez votre jeu de données. Disons que dans la liste déroulante des services liés, choisissez Service lié si vous avez déjà créé ou vous pouvez cliquer sur +Nouveau bouton pour créer un nouveau service lié.
  1. Une fois de retour dans la fenêtre de création du jeu de données, choisissez votre Chemin du fichier. Comme le fichier CSV a des en-têtes, vérifiez Première ligne comme en-tête. Sélectionner De connexion/magasinpour importer le schéma d’en-tête directement à partir du fichier dans le stockage. Cliquez sur D’ACCORD lorsque vous avez terminé.

Z 9 (2)

  1. Pour ajouter une transformation, cliquez sur le + sur la source de données qui se trouve à côté de votre nœud source sur le canevas de flux de données, comme indiqué dans la capture d’écran ci-dessous.Z 10

Vous pouvez voir qu’il existe différentes transformations disponibles dans le flux de données.

Pour plus de blogs : Cliquez ici






Source link