Fermer

décembre 8, 2021

Transformez vos données avec Azure Data Factory


Ce blog vous aidera à comprendre les fonctionnalités de base d'Azure Data Factory (ADF) et à quel point cet outil est puissant lorsque vous travaillez avec des données volumineuses. Explorez l'architecture de base sur ADF et découvrez les composants et les services impliqués.

Une introduction rapide à Azure Data Factory et ses principales fonctionnalités

ADF est un service d'intégration basé sur le cloud pour orchestrer et automatiser le mouvement et la transformation des données. avec 90 connecteurs sans entretien intégrés sans frais supplémentaires. Créez facilement des processus ETL et ELT dans un environnement visuel ou écrivez votre propre code.

Réduisez les dépenses d'exploitation et les dépenses en capital et gagnez un temps précieux grâce à ces fonctionnalités clés :

  • Aucun code ni maintenance requis pour créer un pipeline hybride ETL et ELT dans l'environnement visuel Data Factory.
  • Outil d'intégration de données cloud sans serveur rentable et entièrement géré qui évolue à la demande.
  • Runtime d'intégration SSIS pour réhéberger facilement les packages SSIS sur site dans le cloud à l'aide d'outils SSIS familiers.
  • Mesures de sécurité Azure pour se connecter aux applications sur site, basées sur le cloud et SaaS (Software-as-a-Service) en toute tranquillité.

Se souvenir d'ADF Past (v1) pour comprendre ADF Present (v2)

Azure Data Factory v1 est entré en préversion publique le 28th oct 2014, puis publié pour le général disponible le 6th août 2015. À l'époque, c'était un outil limité pour le traitement des données, mais il pourrait ne résiste pas aux fonctionnalités de SQL Server Integration Services (SSIS). Au début d'Azure Data Factory, vous deviez développer des solutions dans Visual Studio, et même s'il y avait eu quelques améliorations pour l'affichage des diagrammes, de nombreuses modifications JSON devaient être effectuées.

Chez MS Ignite 2017, Microsoft présenter la nouvelle version mise à jour d'ADF. Il a été lancé en tant que v2 en raison de ses nombreuses nouvelles fonctionnalités et capacités, ce qui en fait un produit presque entièrement nouveau. Vous pouvez désormais très facilement lever et déplacer votre solution SSIS locale vers Azure. ADF v2 est entré en préversion publique le 25 septembre 2017.

Les mises à jour les plus importantes étaient des choses comme le branchement et le bouclage et même l'exécution du pipeline sur des horloges programmées ou à intervalles réguliers. Azure Data Factory v2 est même devenu plus populaire lorsque le nouveau Visual Studio est entré en préversion publique le 16 janvier 2018. Certaines autres fonctionnalités sont entrées en préversion publique le 27 juin 2018, telles que la fonctionnalité DRAG et DROP.

Qu'est-ce que l'ETL ?

Comme indiqué ci-dessus, ADF est un outil ETL et ELT pour la solution de données. ETL signifie Extract, Transform and Load. ETL fournit la méthode de déplacement des données de diverses sources vers un entrepôt de données. L'image ci-dessous illustre les 3 étapes du flux de données dans ADF, c'est-à-dire E – Extraire, T – Transformer et L – Charger. -Base de données SQL des locaux. Les données sont extraites dans une plate-forme de stockage de service cloud pour la transformation des données selon les besoins. ADF a les fonctions et les activités qui transforment les données non structurées en données structurées pour l'outil BI et Analytics. À l'aide d'ADF, les données transformées sont ensuite chargées dans un entrepôt de données ou dans n'importe quel stockage en nuage.

ETL est un processus qui utilise des services de stockage en nuage pour les environnements de transfert tels que Blob, Data Lake, le stockage S3, etc. Les environnements de mise en scène sont comme des espaces de travail pour les données réelles avec leurs propriétés complètes à tester avant que les données réelles ne soient stockées.

Dans ce cas, les données brutes sont mises en scène à partir du serveur sur site et stockées dans le stockage en nuage. Le travail de transformation est effectué sur les données RAW stockées dans la destination source, c'est-à-dire le stockage en nuage. Après cela, elles sont stockées dans des entrepôts de données tels que Snowflake ou Databricks.

Voyons maintenant comment toutes ces étapes sont connectées les unes aux autres et quelles fonctions sont utilisées pour transformer les données dans ADF.

Connexion et workflow d'ADF[19659021] L'image ci-dessous est un exemple de flux de travail de copie ADF et les composants et services utilisés pour orchestrer la tâche. Examinons le flux et apprenons chaque partie impliquée dans une tâche de transformation ADF.

Architecture Azure Data Factory

Cet exemple d'activité utilise deux ensembles de données comme source d'entrée et destination de sortie (récepteur) et ces ensembles de données sont connectés à l'aide des services liés. Les services liés sont utilisés pour connecter l'emplacement de stockage réel des données à la fois du côté source et du côté destination. Integration Runtime lie ce workflow complet et pour automatiser ou exécuter cette tâche en un seul clic, vous allez créer un Pipeline.

Pipeline

Comme indiqué dans l'image ci-dessus, pipeline est un regroupement logique d'activités . Les activités se déploient ensemble pour exécuter une tâche spécifique. Pipeline a beaucoup d'activités telles que Get Metadata, For Each, Copy Activity, etc., pour effectuer des tâches de transformation de données. Dans ce scénario, « l'activité de copie » est utilisée pour copier les données du magasin de source de données vers le magasin de destination.

Integration Runtime

Communément appelé IR, Integration Runtime est le cœur d'Azure Data Factory. IR fournit les ressources informatiques pour l'activité de transfert de données et pour la répartition des activités de transfert de données dans ADF. Il existe 3 types de runtime d'intégration : Azure IR, auto-hébergé, Azure-SSIS.

Blob Storage

Ce stockage cloud fourni par Microsoft stocke une quantité massive de données non structurées, telles que du texte ou des données binaires. Comme vous pouvez le voir, le fichier Customer.csv contenant des données non structurées des détails du client est stocké dans le stockage blob.

Service lié

Les services liés connectent la source et la destination des données. Dans cet exemple, le service lié se connecte à notre source de données, c'est-à-dire le stockage blob. La source de données peut être un stockage d'objets blob Azure, Azure SQL Database ou un serveur SQL local.

Dataset

Dataset est utilisé pour se connecter à la source de données et à la destination via des services liés. Les ensembles de données sont créés en fonction du type de source de données et de destination que vous souhaitez connecter.

Comme vous pouvez le voir ci-dessus, du côté source, un type de stockage blob d'ensemble de données se connecte via un service lié à l'emplacement réel des données dans le stockage blob. Du côté de la destination, un ensemble de données de type serveur SQL se connecte via un service lié, pointant vers l'emplacement exact de la table dans la base de données vers les données de stockage.

Activité de copie

L'activité de ce pipeline est utilisée pour copier des données entre différents magasins de données. , et dans ce cas, transformez le format de données comme requis dans le magasin de destination. Des ensembles de données sont fournis à cette activité en tant que source d'entrée et de sortie.

Ainsi, vous pouvez comprendre qu'ADF est le parapluie de tous les composants – tels que le service lié, les ensembles de données, l'exécution d'intégration – fusionnés dans l'activité du pipeline pour produire des données transformées. pour les outils analytiques tels que Power BI et HDInsight pour la planification des résultats commerciaux.

Pourquoi Perficient ?

Notre expérience de plus de 20 ans dans le domaine des données dans tous les secteurs nous permet d'avoir une compréhension approfondie des tendances actuelles en matière de données. En tant que partenaire Microsoft certifié Gold et l'un des rares fournisseurs de solutions nationaux, nous sommes un expert reconnu du cloud avec des années d'expérience à aider les entreprises à tirer le meilleur parti du cloud Microsoft.[19659004]Prêt à rassembler vos données pour tirer parti des analyses avancées avec Azure ? Contactez notre équipe à propos de cette solution.

À propos de l'auteur

Suraj Thakur est un associé consultant technique chez Perficient, avec plus de deux ans d'expérience dans le cloud. Il possède des certifications mondiales avec RedHat et Microsoft Azure Cloud. Suraj se concentre sur la résolution des problèmes et des défis auxquels les clients sont confrontés en temps réel. Il espère partager ses connaissances et aussi acquérir une compréhension grâce aux blogs.

En savoir plus sur cet auteur




Source link