Fermer

juin 12, 2020

DataOps avec IBM – Perficient Blogs


DataOps cherche à fournir rapidement des données de haute qualité de la même manière que DevOps fournit rapidement du code de haute qualité. Les noms sont similaires; les objectifs sont similaires; la mise en œuvre est très différente. La qualité du code peut être mesurée à l'aide d'outils similaires sur plusieurs projets. La qualité des données est un effort critique à l'échelle de l'entreprise. L'effort s'est toujours avéré trop pour la plupart des entreprises et la plupart des initiatives de qualité des données et de gouvernance d'entreprise finissent par être un projet scientifique. DataOps est un appel à l'action, mais le chemin n'est pas encore clairement défini. IBM DataOps offre à la fois une façon de penser à DevOps ainsi que des outils pour la mise en œuvre à l'aide de l'outil de génération de métadonnées automatisées (AMD) d'IBM Global Chief Data Office (GCDO) et d'IBM Watson Knowledge Catalog.

Qu'est-ce que c'est? [19659003] DataOps est encore un concept relativement nouveau, il est donc logique de définir clairement le terme en utilisant une source indépendante de la plate-forme.

DataOps est une pratique de gestion de données collaborative visant à améliorer la communication, l'intégration et l'automatisation des flux de données entre les gestionnaires de données et les consommateurs de données dans une organisation.

– Gartner

DataOps s'intéresse ensuite aux étapes entre la collecte et l'analyse des données. Pour IBM, cela relève de la gestion du catalogue et des métadonnées. Il s'agit d'un processus ordonné, d'un pipeline de données et d'un goulot d'étranglement pour fournir des données de haute qualité aux utilisateurs finaux:

  1. Conservation et gouvernance des données
  2. Qualité des données et gestion des données de base
  3. Intégration, réplication et visualisation des données
  4. Préparation et test des données en libre-service

DataOps est une collaboration entre les consommateurs de données, les ingénieurs de données et les experts en la matière. Mettre en œuvre des indicateurs de performance clés Pour suivre l'amélioration au fil du temps:

  • Connaissez vos données: KPI d'inventaire des données
  • Faites confiance à vos données: KPI de qualité des données
  • Utilisez vos données: KPI de flux de données
 Data Intelligence - The Future des mégadonnées
L'avenir des mégadonnées

Avec quelques conseils, vous pouvez créer une plateforme de données adaptée aux besoins de votre organisation et tirer le meilleur parti de votre capital de données.

Obtenir le guide

Il existe un modèle de maturité qui peut être mesuré à l'aide de ces KPI

Aucune opération de données Fondamentale Développée Avancée
Connaître Feuilles de calcul Catalogue départemental / LOB Catalogue d'entreprise Catalogue renforcé et enrichi
Trust Emails Programme de qualité des données Programme de gouvernance des données avec gestion des données et glossaire des affaires Conformité, ontologie commerciale et classification automatisée
Utilisation Utilisation Codage manuel [19659021] Virtualisation des données, intégration des données et réplication des données Préparation des données en libre-service et gestion des données de test DataOps pour tous les pipelines

Comment est-il implémenté?

DevOps a une base solide d'outils open source intégrés . Ce n'est pas un hasard; les développeurs écrivent des outils open source pour leur faciliter la vie quotidienne. DataOps n'a pas ce même écosystème. La communauté DataOps n'est pas composée de développeurs résolvant des problèmes de codage généraux. Les problèmes DataOps sont beaucoup plus centrés sur l'entreprise:

  • manque de compréhension des données par les utilisateurs professionnels
  • manque de gouvernance des données et de qualité des données
  • fiabilité douteuse des données
  • incapacité à savoir quelles données sont disponibles et comment y accéder

IBM a deux composants principaux à son offre DataOps qui cherchent à minimiser le temps et l'effort humain requis. Le premier est l'outil de génération de métadonnées automatisées (AMG) d'IBM Global Chief Data Office (GCDO) et le second est le catalogue de connaissances IBM Watson. Les métadonnées sont la clé pour fournir rapidement des données de haute qualité car les utilisateurs peuvent facilement trouver, comprendre et faire confiance aux données dont ils ont besoin grâce à un étiquetage précis et disponible. La gestion automatisée des métadonnées est le composant clé de DataOps.

L'outil AMG de GCDO fournit une série de modèles d'apprentissage en profondeur développés sur environ 60 To de données de formation étiquetées. Ces données sont basées sur des sources publiques, des données générées synthétiquement et des données client anonymes participantes. Commencer avec un ensemble de formation aussi complet accélère le processus de classification des nouvelles données client. La classification des données pour les rendre facilement détectables tout en fournissant la gestion des données, la lignée et l'analyse d'impact pour garantir leur fiabilité augmente à la fois les KPI Know et Trust. La fourniture du libre-service a traité le KPI d'utilisation et c'est là qu'IBM Watson Knowledge Catalog entre en scène.

IBM Watson Knowledge Catalog fournit une auto-découverte des données en fournissant une interface graphique pour accéder, conserver et partager les données. C'est ainsi que DataOps est productionalisé. Le catalogue de connaissances utilise l'apprentissage automatique pour une découverte intelligente des sources de données, des modèles et des blocs-notes. La lignée des données et les glossaires sont fournis dans la langue de l'entreprise grâce à l'outil AMG. Des fonctionnalités de sécurité telles que le masquage dynamique des données sensibles et l'analyse automatique et l'évaluation des risques des données non structurées à l'aide de Watson Knowledge Catalog InstaScan permettent à cet outil de faire face à l'entreprise tout en résolvant les problèmes de conformité potentiels.

Où dois-je aller ensuite?

La première étape consiste à identifier et quantifier le besoin de DataOps dans votre organisation. Quel serait l'impact pratique d'obtenir rapidement des données de haute qualité? Ensuite, vous devez être réaliste quant au nombre de ressources pouvant être allouées à DataOps. Le maintien de données de haute qualité n'est pas un projet; c'est un engagement. La classification, le nettoyage et la gestion des données en continu sont-ils mieux effectués par les ressources de votre organisation ou par une IA? Le chemin vers la qualité est la différence entre DevOps et DataOps.

À propos de l'auteur <! -: dcallaghan, Architecte de solutions ->

En tant qu'architecte de solutions chez Perficient, j'apporte vingt ans d'expérience en développement et je suis actuellement en contact avec Hadoop / Spark, la blockchain et le cloud, le codage en Java, Scala et Go. Je suis certifié et travaille beaucoup avec Hadoop, Cassandra, Spark, AWS, MongoDB et Pentaho. Plus récemment, j'ai apporté des solutions de blockchain intégrées (en particulier Hyperledger et Ethereum) et de Big Data au cloud en mettant l'accent sur l'intégration de produits de données modernes tels que HBase, Cassandra et Neo4J comme référentiel hors blockchain.

cet auteur




Source link