Fermer

juillet 1, 2022

IBM Cloud Pak for Data – Intégration de données multicloud et gouvernance des données

IBM Cloud Pak for Data – Intégration de données multicloud et gouvernance des données


IBM Cloud Pak for Data – Intégration de données multicloud et gouvernance des données :

Comme nous le savons tous, IBM Cloud Pak for Data est une solution cloud native qui vous permet d’exploiter vos données rapidement et efficacement. Comprenons ci-dessous les fonctionnalités d’IBM Cloud Pak for Data. Je discuterai également de l’expérience pratique que j’ai acquise en travaillant dessus à travers quelques étapes détaillées :

  • Intégration de données multicloud avec DataStage dans le cadre de l’architecture Data Fabric
  • DataStage AVI (interface de vérification d’adresse)
  • Watson Knowledge Catalog – Processus de gouvernance des données et confidentialité des données

Intégration de données multicloud avec DataStage :

IBM DataStage sur IBM Cloud Pak for Data est une solution d’intégration de données modernisée pour collecter et fournir des données fiables n’importe où, à n’importe quelle échelle et complexité, sur et à travers des environnements multi-cloud et hybrides.

Cette plate-forme d’informations cloud native, basée sur la plate-forme d’orchestration de conteneurs Red Hat OpenShift, intègre les outils nécessaires pour collecter, organiser et analyser les données au sein d’une architecture de Data Fabric. La structure de données est une architecture qui facilite l’intégration de bout en bout de divers pipelines de données et environnements cloud grâce à l’utilisation de systèmes intelligents et automatisés.

Il orchestre dynamiquement et intelligemment les données dans un paysage distribué, afin de créer un réseau d’informations instantanément disponibles pour les consommateurs de données. IBM Cloud Pak for Data peut être déployé sur site, en tant que service sur IBM Cloud ou sur le cloud de n’importe quel fournisseur.

Étape de données IBM

Source du diagramme d’étape de données ci-dessus: DocumentationIBM

Prérequis : besoin d’avoir une instance Data Stage provisionnée pour effectuer les tâches requises.

Vous trouverez ci-dessous les tâches effectuées sur l’étape des données :

  1. Création d’un projet et ajout de DB2 en tant que connexion
  2. Données ajoutées au projet. Données ajoutées à partir d’un exemple de fichier de projet local
  3. Créer un flux DataStage qui extrait les informations des systèmes source DB2
  4. Étapes effectuées à l’aide d’opérations pour transformer les données à l’aide de filtres sur les colonnes Customer.
  5. Compilation et exécution du travail DataStage pour transformer les données.
  6. Fournissez les données à Target – Project – Asset Tab et Data Asset Les clients y étaient présents.

Conditions préalables:

  • Inscrit à Cloud Pak pour les données en tant que service
  • Instance de service d’étape de données ajoutée
  • Également ajouté les services Watson Knowledge Catalog et Cloud Object Storage

Vous trouverez ci-dessous les tâches effectuées sur l’étape de données pour l’intégration de données multicharge :

  1. Créer un exemple de projet et l’associer à une instance Cloud Object Storage
  2. Exécuté un flux DataStage existant qui a créé un fichier CSV dans le projet qui joint les deux ensembles de données d’application client différents.
  3. Modification du flux DataStage et modification des paramètres du nœud conjoint et sélection du nom de la colonne Adresse e-mail en tant que clé
  4. Ajoutée Base de données PostgreSQL au flux DataStage pour obtenir plus d’informations relatives au client.
  5. Ajout d’une autre étape de jointure pour joindre les données d’application filtrées
  6. Ajout d’une étape de transformation qui a créé une nouvelle colonne en additionnant deux colonnes Customer $amount différentes.
  7. Ajoutée Base de données MongoDB pour obtenir plus d’informations relatives au client
  8. Ajout d’une étape de recherche et spécification de la plage pour obtenir des informations sur le client
  9. Exécuter le flux DataStage pour créer le fichier de sortie client final.
  10. A créé un Catalogue afin que les ingénieurs de données, les analystes de données puissent accéder aux données client pertinentes.
  11. Affichage du fichier de sortie dans le projet et publication dans un catalogue
  12. Dans l’onglet Projet-> Actif -> Maintenant, vous pouvez afficher les données.

DataStage AVI (interface de vérification d’adresse) :

L’interface de vérification d’adresse (AVI) d’IBM Quality Stage fournit une analyse, une normalisation, une validation, un géocodage et un géocodage inversé complets des adresses, qui sont disponibles dans des packages sélectionnés par rapport à des fichiers de référence pour plus de 245 pays et territoires.

L’objectif d’AVI est d’aider à résoudre les problèmes liés aux données de localisation, en particulier les adresses, les géocodes et les attributs de données de géocodage inversé, dans toute l’entreprise. La qualité des données et le MDM n’ont jamais été aussi importants en tant que fondements de toute entreprise axée sur le numérique et soucieuse des coûts et de l’efficacité opérationnelle.

IBM se soucie des adresses de qualité pour éviter une expérience client négative, de la prévention de la fraude, du coût des courriers non livrés et retournés et maintient l’attribut clé des données démographiques du client.

Qualité Avi

Source du schéma ci-dessus: DocumentationIBM

Conditions préalables:

  • Inscrit à Cloud Pak pour les données en tant que service
  • Instance de service d’étape de données ajoutée

Vous trouverez ci-dessous les tâches effectuées sur la fonctionnalité Data Stage AVI :

  1. Création d’un projet d’analyse dans IBM Cloud Pak for Data
  2. Ajout d’une connexion au projet -> Sélection de DB2 et fourniture de tous les détails de la base de données et de l’hôte
  3. Ajout du flux DataStage au projet. Ci-dessous, trois catégories principales apparaissent
    1. Connecteurs (points d’accès source et cible)
    2. Étapes (agrégation de données, transformation et recherche de table, etc.)
    3. Qualité (normalisation des données et vérification des adresses)
  4. Connecteurs et étapes ajoutés et configurés au flux DataStage
    1. Ajout d’une source Connecteur dans le navigateur d’actifs et l’adresse sélectionnée comme entrée
    2. Ajoutée Vérification d’adresse du Carte de qualité
    3. Ajoutée Fichier séquentiel pour générer la sortie .csv
    4. Connecté tous les 3 fichiers ci-dessus de gauche à droite
    5. Fourni les détails et les entrées requis pour la ligne d’adresse 1 et la ligne d’adresse 2
  5. Compilé et exécuté le flux AVI DataStage
  6. Allez dans Projet -> Data Asset-> Vous verriez que le fichier .csv serait créé
  7. Ouvrez le fichier .csv et passez en revue les colonnes. Ici, vous verrez plus de colonnes ajoutées à partir du processus de vérification d’adresse
  8. S’il-vous-plaît évaluez Chaîne de code de précision pour voir l’adresse vérifiée par rapport à l’adresse non vérifiée.

Catalogue de connaissances Watson :

IBM Watson Knowledge Catalog on Cloud Pak for Data permet une découverte intelligente et en libre-service des données, des modèles et bien plus encore, en les activant pour l’intelligence artificielle, l’apprentissage automatique et l’apprentissage en profondeur. Avec WKC, les utilisateurs peuvent accéder, organiser et partager des données, des actifs de connaissances et leurs relations, où qu’ils résident.

Les fonctionnalités ci-dessous de WKC ont été réalisées et testées.

  • Processus de gouvernance des données, y compris l’attribution des rôles, le contrôle d’accès, les termes commerciaux et les classifications.
  • Création d’un catalogue de données centralisé pour l’accès en libre-service
  • Création d’un workflow pour gérer les processus métier
  • Valeur commerciale mappée à l’actif technique

Gouvernance des données

Source du diagramme de gouvernance des données ci-dessus: DocumentationIBM

Conditions préalables:

  • Inscrit à Cloud Pak for Data en tant qu’administrateur

Vous trouverez ci-dessous les tâches effectuées sur Watson Knowledge Catalog :

  1. Cliquez sur Administrateur->Contrôle d’accès->Créé un nouveau groupe d’utilisateurs
  2. Utilisateurs ajoutés sous Nouveau groupe d’utilisateurs :
    1. Analyste Qualité
    2. Intendant des données
  3. Rôles prédéfinis fournis : administrateur, analyste de la qualité des données, gestionnaire de données et administrateur de rapports.
  4. Allez dans Gouvernance -> Catégories –> Informations client -> Sous-catégorie Démographie client pour afficher Artefacts de gouvernance
  5. Ici, vous pouvez explorer le Artefacts de gouvernance tels que l’adresse, l’âge, la date de naissance, le sexe, etc.
  6. Allez dans Gouvernance -> Conditions commerciales -> Numéro de compte. Ici, vous pouvez voir les termes commerciaux tels que – Description, Catégorie principale, Catégorie secondaire, Relation, Synonymes, Classification, Balises, etc.
  7. Allez dans Gouvernance -> Classifications-Ici, vous pouvez voir les termes commerciaux tels que – Description, Catégorie principale, Catégorie secondaire, Classification parent / dépendant, Balises, etc.
  8. Accédez à Administration -> Workflows -> Gestion des artefacts de gouvernance -> Fichier de modèle -> Vous trouverez ici différents modèles d’approbation, y compris l’étape de publication et de révision.
  9. Publication automatique sélectionnée et conditions fournies (créer, mettre à jour, supprimer, importer)
  10. Enregistré et activé.
  11. Il y avait plus de choses que vous pouviez faire dans WKC telles que :
    1. Créer des artefacts de gouvernance pour les données de référence afin de suivre certaines normes et procédures.
    2. Création de stratégies et de règles de gouvernance
    3. Création de termes commerciaux
    4. Création d’ensembles de données de référence et de hiérarchies
    5. Création de classes de données – telles que des champs de données ou des colonnes

Catalogue de connaissances Watson – Confidentialité des données :

Ici j’ai appris :

  • Comment préparer une donnée de confiance avec le cas d’utilisation de la gouvernance et de la confidentialité des données de la Data Fabric.
  • Création d’actifs de données fiables en les enrichissant et avec une analyse de la qualité des données.
  • L’objectif était de permettre aux consommateurs de données de trouver facilement des actifs de données de haute qualité et protégés via un catalogue en libre-service.

Conditions préalables:

  • Inscrit à Cloud Pak for Data pour les données en tant que service avec Watson Knowledge Catalog Services

Vous trouverez ci-dessous les tâches effectuées sur Watson Knowledge Catalog :

  1. En tant que gestionnaire de données – Création d’un catalogue en accédant au menu Catalogue avec Appliquer les politiques de données
  2. Créez des catégories en allant dans Gouvernance -> Catégories. Celui-ci contient les termes commerciaux que nous devons importer plus tard.
  3. Ajout de Gouvernance -> Termes commerciaux et importation du fichier .csv
  4. Publication des conditions commerciales.
  5. Importation de données dans un projet en accédant à Projets -> Projet de gouvernance et de confidentialité des données-> Actifs-> Nouvel actif-> Importation de métadonnées -> Cliquez sur Suivant-> Sélectionnez le projet-> Sélectionnez la portée et la connexion
  6. Sélection de Data Fabric Trial pour la connexion DB2 Warehouse afin que les données puissent être importées et affichées sous forme de table.
  7. Enrichi les données importées en sélectionnant Metadata Enrichment dans l’onglet Assets. Cela aidera l’utilisateur final à trouver les données plus rapidement. Vous pouvez profiler les données, analyser la qualité et attribuer les termes.
  8. Consultation des métadonnées d’enrichissement
  9. Publication des données enrichies dans un catalogue de données.

Conclusion: IBM Cloud Pak for Data est une puissante plate-forme Cloud Data, Analytics et AI qui fournit une solution d’intégration de données MultiCloud et de gouvernance des données puissante et rentable.






Source link