Fermer

août 7, 2018

Travailler avec le Data Lake Aggregator – Normes et modèles


Dans mon précédent blog j'ai décrit le concept de «catalogue d'informations» et son rôle essentiel dans la communication entre le Data Lake Aggregator et les fournisseurs et consommateurs.

J'ai également inclus le diagramme suivant comme exemple de la manière dont le catalogue est utilisé pour connecter les artefacts conçus pour décrire les actifs informationnels:

J'ai également mentionné que la confusion peut encore régner s'il n'y a pas de normes en place pour guider et contrôler la présentation des spécifications, des exigences et des conceptions d'artefacts nécessaires à ces collaborations. Cet article examinera quelques artefacts généralement générés par les fournisseurs et les consommateurs, suggérant comment ces normes peuvent être réalisées grâce à l'utilisation de modèles définis par l'agrégateur – ou plus précisément le programme IG supervisant le Data Lake.

Artefacts de fournisseurs [19659005] Le fournisseur doit communiquer non seulement ce qui est fourni, mais aussi comment il est fourni de manière suffisamment détaillée pour que l’agrégateur puisse prendre les informations, les "débarquer" dans le lac et ensuite être capable de trouver les informations pertinentes. informations sur ce qui est fourni pour répondre aux besoins des consommateurs.

En utilisant l'exemple d'un fournisseur fournissant un "fichier d'extraction", vous devez utiliser l'ensemble de modèles ou artefacts requis pour spécifier ce qui se trouve dans le fichier d'extraction:

Modèle sémantique Ceci représente les concepts, leurs caractéristiques et leurs relations les uns avec les autres. Ce n’est pas tant un modèle qu’un ensemble de normes pour représenter ces aspects dans un type de vue «boîtes et lignes». Ces modèles doivent représenter un sous-ensemble du modèle de catalogue (qui peut nécessiter une extension du catalogue si le fournisseur fournit des informations non encore représentées).
Glossaire Ce glossaire contient non seulement les éléments du modèle sémantique, mais aussi d'autres termes pouvant décrire des informations fournies par le modèle sémantique (par exemple, les valeurs calculées ou récapitulatives présentes dans le fichier d'extraction). Ce modèle contient un ensemble de "colonnes" standard pour décrire un terme (définition, synonymes, catégorisation des termes, etc.)
Règles Ceci présente toutes les contraintes que le système du fournisseur imposait aux informations fournies. Par exemple, si le modèle identifie une personne qui peut avoir plusieurs adresses, mais que le système du fournisseur n'autorise qu'une seule adresse par personne, cela sera documenté dans ce manuel de règles. Semblable au modèle Glossaire, le modèle de règle doit contenir des "colonnes" typiques pour décrire une règle.
Translation Map Ceci est le cœur de la spécification en ce qu'elle "connecte" les informations fournies (dans ce cas, l'extrait enregistrer les fichiers et les champs) dans les concepts représentés dans le modèle sémantique et le glossaire des termes. Ce gabarit est donc constitué de colonnes décrivant l’enregistrement / le champ fourni et l’ensemble de colonnes correspondant décrivant les concepts sur lesquels ces éléments sont alignés, ou mappé, comme représenté dans le dictionnaire de modèles / glossaires
le glossaire, cela présente une description de chaque champ du fichier d'extraction. Ce modèle consiste en un ensemble de colonnes typiques pour décrire un champ, mais devrait également, comme le glossaire, fournir des indications sur ce qui constitue une bonne définition.
Champ Valeurs valides Pour tout champ limité par ce qui peut être placé dans le système d'approvisionnement, l'ensemble complet des valeurs qui sont valables. Ce modèle consiste en un ensemble de colonnes permettant de décrire une valeur comprenant, dans le cas de «codes» ou d’autres valeurs cryptiques, des colonnes permettant une description complète de la signification de chacune de ces valeurs.

Consumer Artifacts

The Les consommateurs doivent indiquer à l’agrégateur ce dont ils ont besoin, mais ils ne doivent pas, au moins au début, s’inquiéter de la manière dont ces besoins leur sont présentés. Cela donne à l’agrégateur une certaine flexibilité pour répondre aux besoins, ce qui en retour améliorera l’efficacité de la livraison, dans la mesure où l’agrégateur sera en mesure de proposer des paquets «standard» d’informations pouvant répondre aux besoins de plusieurs consommateurs.

l'ensemble des artefacts requis pour un consommateur se concentre simplement sur la description de ce qui est nécessaire:

Modèle sémantique Cet artefact utilisé par le fournisseur représente les concepts, leurs caractéristiques et leurs relations. Ce n’est pas tant un modèle qu’un ensemble de normes pour représenter ces aspects dans un type de vue «boîtes et lignes». Ces modèles doivent représenter un sous-ensemble du modèle de catalogue (qui peut nécessiter une extension du catalogue si le consommateur demande des informations non encore représentées)
Glossaire Ce glossaire contient non seulement les éléments du modèle sémantique, mais aussi d'autres termes pouvant décrire des informations demandées dérivées du modèle sémantique (par exemple, les valeurs calculées ou récapitulatives requises par le consommateur). Ce modèle contient un ensemble de "colonnes" standard pour décrire un terme (définition, synonymes, catégorisation de termes, etc.)
Règles Ceci présente toutes les contraintes que le système du consommateur imposera aux informations fournies. Par exemple, si le modèle identifie une personne pouvant avoir plusieurs adresses, mais que le système grand public n'autorise qu'une seule adresse par personne, cette information sera documentée dans ce livret de règles. Semblable au modèle Glossaire, le modèle de règle doit contenir des "colonnes" typiques pour décrire une règle.

Comme vous avez pu le constater, les artefacts du consommateur sont identiques aux modèles et au contenu du fournisseur. à partir de laquelle ils sont peuplés. Cela permet de découpler les sources des cibles dans la mesure où le fournisseur doit se concentrer uniquement sur ce qu'il fournit et le consommateur peut se concentrer uniquement sur ce dont il a besoin.

Je me rends compte que je n'ai pas fourni beaucoup de détails ou d'exemples précis de ce à quoi un modèle ressemblerait réellement, mais, dans une certaine mesure, cela dépend des besoins et de la maturité d'une entreprise particulière. . J'espère que cela vous donne suffisamment d'informations pour commencer à définir vos propres modèles, mais n'hésitez pas à laisser un commentaire ou à me contacter directement si vous souhaitez plus d'informations (ou pour ajouter des détails).

Tout ce discours sur les catalogues maîtres, les normes et les modèles m'amène à mon domaine d'intérêt ultime pour faire tout ce travail: la gouvernance de l'information. Pour que tout cela se concrétise et soit durable, un solide programme de gouvernance de l’information est nécessaire, et c’est ce dont je discuterai dans mon prochain article.




Source link