Fermer

mai 24, 2022

Premiers pas avec l’outil Matillion ETL

Premiers pas avec l’outil Matillion ETL


Dans cet article, je vais vous montrer comment configurer votre propre instance Matillion, mais avant de commencer, parlons de l’outil Matillion ETL.

Qu’est-ce que Matillion et pourquoi devriez-vous vous en soucier ?

Matillion est un outil ETL disponible sur Cloud Marketplace. Il est entièrement basé sur le cloud, facturé à l’heure et présente les avantages les plus significatifs lorsqu’il est associé à Snowflake, Redshift et Delta Lake. Pour obtenir cet avantage significatif, je vais vous montrer le couplage de Matillion avec Snowflake dans cet article.

Nous utilisons l’outil Matillion ETL sur l’entrepôt de données, comme Snowflake sur le projet ETL pour nos clients. Récemment, j’ai travaillé sur un projet dans lequel je travaillais sur Matillion pour la transformation et l’orchestration des données de la source à la cible.

Matillion a deux types principaux d’emplois :

  • Orchestration : l’orchestration concerne principalement les instructions DDL (en particulier la création, la suppression et la modification des ressources), le chargement de données à partir de sources externes.
  • Transformation : la transformation est utilisée pour transformer des données qui existent déjà dans des tables. Cela inclut le filtrage des données, la modification des types de données et la suppression des lignes.

Il comporte différents types de composants fonctionnels, qui sont utilisés comme une boîte à outils pour votre parcours ETL. Ces composants vont des commandes SQL DDL aux scripts Python, et certains de ces composants sont conçus pour effectuer certaines des tâches les plus complexes. De plus, cela nous donne la possibilité de créer des variables que nous pouvons utiliser dans n’importe quel composant de l’éditeur de requêtes. Matillion propose des variables de deux types : la variable environnementale et la variable d’emploi.

Je vais vous montrer l’exemple d’un Job de transformation et d’un Job d’orchestration créé dans mon récent projet.

Il s’agit du travail de transformation dans lequel j’ai utilisé le composant de requête SQL (bleu) pour écrire un script SQL. Le résultat est transmis au composant suivant qui est le composant de mise à jour de table (rouge), qui a mis à jour le résultat du composant SQL dans la table cible définie dans le composant de mise à jour de table.

1

Il s’agit du travail d’orchestration dans lequel nous utilisons plusieurs composants, mais la tâche principale de ce travail est d’exécuter le travail de transformation. Comme vous pouvez le voir, nous avons un composant de démarrage qui démarre l’exécution de la tâche, puis nous avons une tâche de transformation qui effectue la transformation (illustrée ci-dessus), puis nous avons un composant de réussite finale qui termine l’exécution de la tâche. En cas d’échec dans le composant Tâche de transformation, le composant OU attendra que l’une de ses entrées soit terminée avant de poursuivre la tâche. Ainsi, lorsque l’échec se produit, le composant OR ajoute le composant de message SNS au travail qui envoie la notification d’échec par courrier électronique à l’aide du service SNS d’AWS et le composant End Failure termine l’exécution du travail dans l’état d’échec.

2

Maintenant que vous avez une compréhension de base de l’outil Matillion, vous êtes probablement ravi de créer votre travail pour la transformation des données, alors laissez-moi vous donner la procédure complète sur la façon dont vous pouvez créer votre propre instance Matillion et commencer à vous salir les mains.

Commençons!!! La création de votre parcours Matillion ETL.

Tout d’abord, créez un compte Matillion Free Trail sur Matillion Hub ici. (Remarque : le compte Matillion nécessite un ID de domaine d’organisation. Il n’autorisera pas un ID de domaine gratuit comme gmail.com ou yahoo.com).

Matillion vous enverra un e-mail de confirmation sur l’identifiant de votre organisation après la création réussie du compte. Vous devez vous assurer que votre organisation est correctement ajoutée à votre compte, comme indiqué ci-dessous dans l’image.

3

S’il n’est pas ajouté, vous pouvez ajouter votre organisation avec le bouton « Ajouter une nouvelle organisation » comme indiqué dans l’image ci-dessus.

Une fois que vous avez ajouté votre organisation et cliqué sur le panneau de votre organisation, vous devrez sélectionner un service comme indiqué ci-dessous.

4

Sélectionnez l’option « Ajouter une nouvelle instance Matillion ETL » pour créer une nouvelle instance/VM sur laquelle travailler.

Sur la page suivante, vous devrez sélectionner le fournisseur de cloud approprié en fonction de votre option d’exigence (AWS et Azure). Remarque : GCP n’est actuellement pas pris en charge, comme indiqué ci-dessous.

5

Pour l’instant, allons-y avec l’option AWS en tant que fournisseur de cloud, ensuite vous devrez choisir votre plate-forme de données cloud.

6

Dans ce cas, nous allons sélectionner Snowflake comme plate-forme de données. Ensuite, vous devrez choisir la méthode de lancement de votre Matillion selon votre service AWS. Vous recevrez deux options, comme indiqué ci-dessous.

Amazon Web Services - Évitez les pannes du centre de contact : planifiez votre mise à niveau vers Amazon Connect

7

Option 1 – Modèle CloudFormation Il y a plusieurs conditions préalables que vous devrez définir dans les pages suivantes.

Commençons par sélectionner la région dans laquelle vous souhaitez héberger une instance.

8

Ensuite, sélectionnez VPC pour votre instance afin de lancer les ressources AWS dans un réseau virtuel que vous définissez.

9

La page suivante vous permettra de sélectionner le modèle CloudFormation et de choisir le modèle en conséquence selon vos besoins.

Vous serez ensuite redirigé vers la page de la console AWS où vous devrez vous connecter avec vos informations d’identification AWS.

Une fois connecté à AWS, il vous sera demandé de créer une pile pour votre modèle. Veuillez fournir les détails requis pour créer une pile. Après quoi, il créera une pile et lancera votre instance Matillion avec la région et le VPC sélectionnés. Le statut de la pile doit être le statut create_complete comme indiqué ci-dessous.

dix

Option 2

Si vous sélectionnez l’option AMI pour lancer votre instance, elle vous redirigera vers la page de la console AWS où vous devrez vous connecter avec vos informations d’identification AWS.

11

Après vous être connecté à votre compte AWS, vous obtiendrez une liste d’AMI pour l’outil Matillion ETL, il vous suffit de sélectionner une AMI pour l’instance de lancement.

12

Après avoir créé avec succès une instance (que ce soit par AMI ou modèle CloudFormation), vous avez terminé avec la création de l’outil Mtillion ETL et vous devrez maintenant accéder à cet outil sur Internet en tant que plate-forme SaaS.

Accéder à l’outil Matillion ETL

Pour accéder à l’outil Matillion, vous devez vous assurer que votre instance créée est opérationnelle en permanence. Vous aurez besoin d’une instance IP publique pour charger la page de connexion Matillion ETL Tool sur votre navigateur.

13

Utilisez l’option copier dans le presse-papiers et collez l’adresse IP publique sur n’importe quel navigateur. Vous obtiendrez une page de connexion Matillion Tool demandant un nom d’utilisateur et un mot de passe. Le nom d’utilisateur dépend du système d’exploitation sur lequel l’AMI est construite.

Comme dans mon scénario, mon AMI est basé sur Linux, donc mon Le nom d’utilisateur sera ec2-user. Le mot de passe sera l’identifiant de l’instance comme le montre l’image ci-dessus.

Assurez-vous d’utiliser l’option de copie dans le presse-papiers pour éviter les tentatives de connexion infructueuses. Image ci-dessous montrant la page de connexion de Matillion ETL Tool.

14

Une fois connecté à la console de l’outil Matillion ETL, vous obtiendrez une fenêtre contextuelle, utilisez le Bouton Créer un projet pour créer un nouveau projet. Vous obtiendrez des fenêtres avec 4 étapes nécessaires au projet.

Remplissez les détails requis comme indiqué ci-dessous.

15

La prochaine étape est la connexion AWS. Comme indiqué ci-dessous, le nom de l’environnement et les informations d’identification AWS sont nécessaires pour continuer. Dans mon cas, j’ai créé un utilisateur IAM dans le compte AWS (c’est-à-dire, mat-user, j’ai donc sélectionné cet utilisateur comme informations d’identification AWS). Pour ajouter un utilisateur IAM à Matillion, utilisez le bouton Gérer. Vous aurez besoin de l’ID de clé d’accès et de la clé d’accès secrète de cet utilisateur IAM.

16

L’étape suivante consiste à configurer la connexion Snowflake, qui fournit des détails sur les options, comme indiqué ci-dessous. Pour ceux-ci, vous aurez besoin d’un compte Snowflake. Si vous n’avez pas de compte, veuillez créer un compte d’essai gratuit de 30 jours ici.

17

La dernière étape consiste à configurer l’environnement par défaut de Snowflake, c’est-à-dire le paramètre d’entrepôt de données par défaut de Snowflake. (Voir ci-dessous pour une référence). Si Snowflake est connecté avec succès, vous obtiendrez automatiquement vos options d’entrepôt par défaut dans la liste déroulante.

18

Cliquez sur Terminer et votre projet sera créé. Désormais, vous pouvez travailler sur Matillion ETL pour la transformation de données à l’aide de tâches d’orchestration et de tâches de transformation. Utilisez des composants pour la transformation et le flux de données, comme indiqué dans l’image ci-dessous.

19

Un panneau de base est fourni sur la page de la console de million.

  • En bas à droite, vous obtenez l’état de la tâche (succès ou échec). En cas d’échec, vous obtenez également l’erreur descriptive pour le dépannage.
  • Au centre, vers le bas, vous obtiendrez les propriétés de toutes les activités que vous utilisez dans le panneau Grille pour le flux de données. Sélectionnez cette activité et l’onglet Propriétés vous montrera toutes les propriétés de cette activité.

Ici, vous avez créé avec succès une instance Matillion ETL Tool à l’aide d’AWS et de Snowflake. Vous avez maintenant réussi à créer une instance Matillion ETL Tool à l’aide d’AWS et de Snowflake. Pour en savoir plus sur nos capacités et pratiques cloud AWS et sur la manière dont Perficient peut vous aider à poursuivre la transformation numérique de votre entreprise, rendez-nous visite ici!

Continue d’apprendre!!!!!

A propos de l’auteur

Suraj Thakur est consultant technique associé chez Perficient, avec plus de deux ans d’expérience dans le cloud. Il possède des certifications mondiales avec RedHat et Microsoft Azure Cloud. Suraj se concentre sur la résolution des problèmes et des défis auxquels les clients sont confrontés en temps réel. Il espère partager ses connaissances et également gagner en compréhension grâce aux blogs.

Plus de cet auteur






Source link