Fermer

juin 2, 2022

IBM Cloud Pak for Data – Data Science MLOPS

IBM Cloud Pak for Data – Data Science MLOPS


IBM Cloud Pak for Data – MLOPS et gouvernance des données :

J’ai appris, exploré et travaillé sur IBM MLOPS pour la science des données et je voulais partager mon apprentissage et mon expérience ici sur les services Cloud d’IBM et comment ils sont intégrés sous un même parapluie nommé IBM Cloud Pack pour les données.

D’abord, comprenons ce que IBM Cloud Pak pour les données est.

IBM Cloud Pak for Data est une solution cloud native qui vous permet d’exploiter vos données rapidement et efficacement.

Votre entreprise dispose de beaucoup de données. Vous devez utiliser vos données pour générer des informations significatives qui peuvent vous aider à éviter les problèmes et à atteindre vos objectifs.

Mais vos données sont inutiles si vous ne pouvez pas leur faire confiance ou y accéder. Cloud Pak for Data vous permet de faire les deux en vous permettant de vous connecter à vos données, de les gouverner, de les trouver et de les utiliser pour l’analyse. Cloud Pak for Data permet également à tous vos utilisateurs de données de collaborer à partir d’une interface unique et unifiée qui prend en charge de nombreux services conçus pour fonctionner ensemble.

Cloud Pak for Data favorise la productivité en permettant aux utilisateurs de trouver des données existantes ou de demander l’accès aux données. Grâce à des outils modernes qui facilitent l’analyse et suppriment les obstacles à la collaboration, les utilisateurs peuvent passer moins de temps à rechercher des données et plus de temps à les utiliser efficacement.

Et avec Cloud Pak for Data, votre service informatique n’a pas besoin de déployer plusieurs applications sur des systèmes disparates, puis d’essayer de trouver comment les connecter.

POC MLOPS en science des données :

Avant de commencer un POC IBM Data Science MLOPS, vous devez avoir effectué certains prérequis :

  1. Vous devez disposer d’un compte Cloud Pak for Data as a Service (CPdaaS) ainsi que d’un compte IBM Cloud – Compte Cloud Pak for Data as a Service (CPDaaS) – https://dataplatform.cloud.ibm.com.
  2. Si vous n’avez pas de compte CP DaaS, vous pouvez vous inscrire pour un compte d’essai gratuit, et il en va de même pour le compte IBM Cloud.
  3. Veuillez fournir tous les services requis à l’aide du compte IBM Cloud (https://cloud.ibm.com/login) et des marques telles que Watson Studio, Watson Knowledge Catalog, Watson Machine Learning, Watson OpenScale et DB2 Service.

POC MLOPS en science des données était axé sur les principales capacités et points forts de Watson Studio et des produits associés. Les trois thèmes principaux des POC étaient :

  • MLOps: Cycle de vie des actifs de science des données de bout en bout
  • Science des données low-code: développer des actifs de science des données dans des outils visuels
  • IA de confiance: une extension de MLOps avec un accent sur la gouvernance des données/modèles et la surveillance des modèles

Flux IBM MLOPS

Flux Mlops

Source du diagramme : documentation IBM

En savoir plus sur les phases MLOPS et sur la manière dont nous pouvons aborder un POC en science des données :

  • Découverte – Identifiez les données, configurez la connexion de données et chargez les données. Construire le processus de transformation des données et de virtualisation
  • Ingestion et préparation – Ingestion de données, Valider la post-ingestion et le pré-traitement des données.
  • Développement – Développer le modèle et l’automatiser. Contrôle de version à l’aide de GIT pour tout changement de code. Stockez le référentiel modèle et maintenez-le.
  • Déploiement – Déployez le modèle de manière manuelle ou automatisée. Évaluez le modèle et gérez les artefacts. Avoir des contrôles de gestion des changements.
  • Surveillance – Configurer la surveillance du modèle et les alertes
  • Gouvernance – Mettre en place un processus de gestion des approbations de bout en bout.

Pour construire un POC Data Science, nous effectuons les activités/tâches suivantes :

Accès aux données : cela couvre la découverte, l’ingestion et la préparation

  1. Dans le cluster CPD (IBM Cloud Pak for Data), j’ai créé un Projet d’analyse.
  2. Ajout de données en tant qu’actif à un projet et dans le Les atouts Tab a téléchargé un échantillon Données client
  3. Ajoutée DB2 sur le cloud Connexion au projet -> Data Asset avec tous les détails requis sur la base de données, le nom d’hôte et le port.
  4. Formez Ajouter au projet -> Données connectées -> Sélectionnez les noms de la source, du schéma et de la table et maintenant la table client a été créée et affichée sous le Onglet Ressources de données
  5. Formulaire Ajouter au projet -> Notebook – Création d’un notebook avec Environnement Python 3.9 et Spark 3.0. Cet environnement nous aidera avec l’importation de données. Il s’agit principalement de la génération de code et de l’importation de données via la trame de données Pandas et Spark.
  6. En naviguant vers Notebook -> Vous pouvez sélectionner l’Insert to Code pour votre Data Asset (Customer Table) -> Exécutez-le et chargez les données dans le bloc de données
  7. De la même manière, vous pouvez écrire des données dans une base de données en utilisant le code du bloc-notes.
  8. Vous pouvez également créer une connexion à Stockage d’objets IBM Cloud et charger les données
  9. Ajout des ressources de données créées comme ci-dessus pour Catalogue en créant un nouveau Catalogue.
  10. Promu actifs de données à un espace de déploiement.
  11. Travaillé sur le volume de stockage où vous pouvez accéder aux fichiers à partir d’un système de fichiers partagé comme NFS.

Watson Studio – Open Source et GIT avec cpdctl pour le processus de déploiement CI/CD automatisé : cela couvre le développement et le déploiement

  1. Réalisation de l’intégration Watson Studio-Git en créant un nouveau projet dans IBM Watson Studio. Ceci est nécessaire pour créer et mettre à jour des scripts à l’aide de Laboratoire Python et Jupyter
  2. GIT peut être utilisé ici à partir de MLOPS CI/CD et peut être intégré à Jenkins/Travis.
  3. Dans Jupyter Lab, créez 2 blocs-notes avec un exemple de code et configurez 2 ID utilisateur dans CPD, l’un avec l’éditeur et l’autre en tant que collaborateur.
  4. L’utilisateur 1 a validé le code dans Git Repo et a envoyé les modifications.
  5. Avec d’autres identifiants d’utilisateur en tant que collaborateurs, extrayez les modifications et apportez quelques modifications au code. Validez les modifications dans Git Repo.
  6. ID utilisateur 1 Tirez les modifications et voyez le code mis à jour/modifié.
  7. Travail sur cpdctl (Cloud Pak for Data Command Line Interface) et déplacement des scripts Jupyter Lab Notebook vers Project et Deployment space. Avec cpdctl, vous pouvez automatiser un flux de bout en bout qui comprend la formation d’un modèle, son enregistrement, la création d’un espace de déploiement et le déploiement du modèle.
  8. Gestion des packages effectuée – Installez des bibliothèques telles qu’Anaconda dans Notebook pour effectuer des tests rapides
  9. Emplois chez Watson Studio – Création d’un Job pour Notebook Développé et appelé le Job.
  10. Déploiement de la science des données (modèle, scripts, fonctions)
  11. Il existe principalement deux types de déploiement par lots et en ligne.
    • En ligne: une option de déploiement de requête/réponse en temps réel. Lorsque cette option de déploiement est utilisée, les modèles ou fonctions sont appelés avec une API REST. Une ou plusieurs lignes de données peuvent être transmises avec la requête REST.
    • Lot: une option de déploiement qui lit et écrit depuis/vers une source de données statique. Un déploiement par lots peut être appelé avec une API REST.

un. Dans CPD, Création d’un nouvel espace de déploiement -> En ligne– Sélection du bloc-notes Customer Data Predict -> Exécuter et enregistrer le modèle à l’aide d’un objet WML.

b. À partir de la vue Projets – Actifs -> Localiser le modèle -> Promouvoir le modèle en sélectionnant l’espace de déploiement.

c. Depuis l’espace de déploiement -> Sélectionnez le modèle et déployez-le en cliquant sur le bouton Déployer.

ré. De la même manière, créez un espace de déploiement pour le lot -> Travail créé -> Sélectionnez CSV de données client comme source et exécutez-le.

e. C’est ainsi que nous procédons au déploiement automatique du modèle dans un espace de déploiement.

Suivi et Gouvernance – IBM Watson OpenScale est utilisé pour surveiller le modèle en termes d’équité, de qualité, de dérive et d’autres détails.

Conclusion: IBM Cloud Pak for Data est une puissante solution de plate-forme Cloud Data, Analytics et AI qui offre aux utilisateurs finaux un accès rapide aux données gouvernées, une productivité accrue et des économies de coûts.

Noter: Veuillez noter que certains schémas et détails proviennent d’IBM (ibm.com/docs et autres documents de référence).

Si vous souhaitez explorer et apprendre IBM Cloud Pak for Data et ses services, veuillez suivre le didacticiel ci-dessous :

IBM Cloud Pak pour les données

Annonce de didacticiels pratiques pour les cas d’utilisation IBM Data Fabric

A propos de l’auteur

Sagar Adabaddi est un professionnel chevronné des données avec 21 ans d’expérience dans la modernisation des données, les données, l’analyse, Azure/AWS/Snowflake Cloud, l’architecture, le conseil, la gestion des programmes, la gestion des versions et l’assurance qualité, les données et les opérations. Il travaille actuellement en tant qu’architecte de solutions senior et responsable de la pratique DataOps et aide les clients à réussir leur parcours de modernisation des données et de DataOps.

Plus de cet auteur






Source link