Fermer

juin 21, 2018

Participants à Data Lake – Rôles et responsabilités


Comme vous vous en souvenez peut-être, la dernière fois que j'ai présenté l'analogie de l'agrégateur pour décrire l'utilisation d'un Data Lake comme un consolidateur d'information, j'ai mentionné les trois rôles clés de ce modèle: le fournisseur, l'agrégateur et le consommateur. 19659002] Dans cet article, je donnerai un peu plus de détails sur les responsabilités de chacun de ces rôles qui, lorsqu'ils sont exercés avec diligence, fournissent un environnement efficace pour obtenir une valeur significative du lac.

Pour que ce modèle fonctionne efficacement – il y a quelques points clés à garder en tête en tout temps:

  • Le fournisseur n'a aucune connaissance directe des besoins du consommateur ou de la façon dont ils veulent les éléments présentés – c'est le rôle de l'agrégateur
  • ] Le consommateur ignore le fournisseur, seul sait ce qui est disponible en interagissant avec l'agrégateur
  • L'agrégateur est conduit par une compréhension du consommateur, à la fois de savoir ce que le y a besoin (ou pourrait avoir besoin dans le futur), ainsi que de la façon dont ils ont besoin de voir ou d'y accéder, c'est donc l'agrégateur qui décide comment présenter les articles au consommateur

Gardant à l'esprit ces principes sous-jacents, l'ensemble des responsabilités peut être défini pour chaque rôle (notez que les exemples inclus sont pour un fournisseur d'assurance santé):

Fournisseur

  • Fournit une description complète de ce qui est livré au Data Lake
    • Un modèle conceptuel et logique de l'information dans le "langage" du catalogue standard qui a été adopté par le Data Lake comme représentant des informations commerciales de l'entreprise – indépendamment de toute implémentation physique
    • Un ensemble de règles qui ont été placés sur les informations (par exemple, ce système source n'autorise qu'une adresse par personne)
    • Ensemble de "calculs" fournis avec une formule de calcul – utilisant les concepts définis dans le catalogue d'entreprise (par exemple, le nombre de membres du groupe est la somme de tous les membres du régime, à la fois le membre du groupe, à savoir le souscripteur, ainsi que tous les membres du régime identifiés sur chaque contrat détenu par l'abonné)
    • sont représentés dans les informations fournies et les critères utilisés pour générer le contenu de la vue (par exemple, tous les contrats d'abonnés âgés de 65 ans ou plus et de sexe masculin)
  • Fournit une description complète de la façon dont l'information est livrée au lac de données
    • Le formulaire (fichier extrait, service d'acquisition, connexion directe "pipe", etc.)
    • Le format détaillé dans le formulaire qui correspond à la documentation "what" présentée ci-dessus

Notez qu'aucune exigence de transformation n'est fourni parce que, en tant que fournisseur, ce n'est pas sa responsabilité

Consommateur

  • Fournit une description complète de ce qui est demandé au Data Lake
  • Un modèle conceptuel et logique de l'information dans le "langage" du catalogue standard qui a été adopté par le Data Lake comme représentant des informations commerciales de l'entreprise – indépendamment de toute mise en œuvre physique
  • toutes les règles suivies par la cible, de sorte que les informations fournies doivent être respectées en conséquence (par exemple, ce système cible n'autorise qu'un paquet de bénéfices par division)
  • L'ensemble des "calculs" requis par la cible, avec une formule ce calcul est effectué en utilisant les concepts définis dans le catalogue d'entreprise (par exemple, le nombre de Membres du Groupe est la somme de tous les Membres du Plan, à la fois le Membre du Groupe, le Souscripteur et tous les Membres du Plan par l'abonné)
  • L'ensemble de "vues" devant être fournies dans les informations fournies et les critères qui définissent le contenu de la vue (par exemple, tous les contrats pour un produit HMO où t l'abonné est une femme et réside dans l'état de l'Arkansas)
  • Fournit une description complète de la manière dont l'information est souhaitée depuis le Data Lake (ceci est hautement négociable car Data Lake peut offrir des mécanismes de livraison alternatifs ou peut rejeter la demande du Consommateur)
  • Le formulaire (fichier extrait, service d'acquisition, connexion directe "pipe", etc.)
  • Le format détaillé dans le formulaire qui correspond à la "quoi" documentation présentée ci-dessus
  • Si les transformations nécessaires de ce que le Data Lake a accepté de mettre à disposition, un description de la transformation désirée

Notez que dans ce modèle, même les autres «consolidateurs» (comme un entrepôt de données ou un magasin de données opérationnelles) sont également des consommateurs et ont donc la même responsabilité.

Agrégateur

  • S'assure qu'il y a des fournisseurs avec les articles dont les consommateurs ont besoin
  • Prendre livraison d'un fournisseur, sous quelque format que ce soit, et présenter ces articles au consommateur
  • Fournir le vocabulaire commun (catalogue) du information actuellement ou «par anticipation» résident dans le lac de données (cela peut augmenter à mesure que les fournisseurs viennent avec de nouveaux concepts ou que les consommateurs font des demandes pour de nouveaux concepts)
    • Un modèle conceptuel et logique
    • Un ensemble de règles qui ont été placées sur l'information
    • L'ensemble de "calculs" disponible
    • L'ensemble de "vues" disponible
  • Fournit une description complète de la façon dont un consommateur peut accéder à l'information et la localisation physique de l'information
  • Détermine la meilleure approche pour déplacer l'information du fournisseur vers l'information accessible au consommateur (en utilisant son connaissance des besoins du consommateur et de la façon dont il souhaite servir le consommateur)
  • Fournit une assistance aux fournisseurs et aux consommateurs pour représenter leurs informations en utilisant le vocabulaire commun
  • Fournit des conseils et une assistance aux consommateurs pour obtenir les informations du consommateur. Data Lake

Régit toutes les informations résidentes dans le Data Lake

Cette dernière déclaration est la clé de la connexion à la gouvernance de l'information. En fait, toutes ces descriptions de responsabilité sont un aspect des «droits de décision» définis et contrôlés par un organe de gouvernance.

L'implication étant que les «gardiens» du Data Lake doivent établir la gouvernance de l'information hébergée. dans le lac – bien qu'il soit recommandé que le programme IG soit créé de manière organisationnelle en tant qu'entité séparée et distincte du propriétaire de la solution Data Lake.

Vous remarquerez également qu'un lien entre tous ces rôles est un catalogue utilisé par tous. parties dans leurs communications avec les autres rôles. La création et la maintenance de ce catalogue sont la responsabilité du Programme IG – et je parlerai plus de cet artefact, et de son importance, dans mon prochain post.




Source link