Fermer

juillet 10, 2018

Data Lake comme agrégateur – Le rôle critique du catalogue


Mon blog précédent parlait d'un Data Lake utilisant une analogie Fournisseur-Agrégateur-Consommateur et parlant des rôles que chacun de ces partis joue. Un facteur essentiel au succès de cette approche est l'utilisation d'un vocabulaire commun qui assure l'efficience et l'efficacité des interactions et des collaborations entre les parties.

L'analogie de l'agrégation implique que les fournisseurs et les consommateurs approchent indépendamment l'agrégateur. , il est donc impératif qu'il existe un langage commun utilisé par tous pour décrire ce qui est fourni (les «spécifications» du contenu du fournisseur), ce qui est nécessaire / désiré (les «exigences» des consommateurs) et ce qui est réellement contenu dans le Data Lake (le "catalogue" d'informations publié par l'agrégateur).

A quoi ressemble ce catalogue? Étant donné que ce sont des informations dont nous parlons, ce n'est pas quelque chose que vous n'avez probablement jamais vu auparavant – il s'agit essentiellement d'une représentation de l'information contenue dans Data Lake à l'aide de modèles d'information et de données. Ensemble, ils décrivent pleinement l'information qui est pertinente pour l'entreprise menée par l'entreprise.

Les modèles et le glossaire décrivent exclusivement «quelles» informations existent en utilisant le «langage de l'entreprise» pour lequel elles existent. La terminologie et la représentation / notation utilisées dans les modèles doivent être accessibles à toutes les personnes impliquées – à la fois commerciales et techniques – pour assurer une compréhension maximale.

Pour être parfaitement clair, ce n'est PAS une représentation physique de comment et où toutes les informations sont stockées, ou son format, les mécanismes d'accès ou tout autre aspect physique. Ces éléments sont tous essentiels et jouent un rôle dans la réception et la distribution réelles de l'information, mais le «comment» détail est traité séparément afin de garder le catalogue axé sur un langage commun qui ne fluctue pas avec l'utilisation ou l'avancement de la technologie.

Le diagramme suivant fournit un exemple de la façon dont le catalogue sert de «fil conducteur» entre ce que le fournisseur fournit et les besoins du consommateur:

Ce diagramme illustre l'utilisation du catalogue non seulement pour décrire l'information des perspectives des deux parties, mais aussi comment il est utilisé pour assurer la cohérence et la traçabilité de l'instanciation physique de l'information dans le lac avec les concepts communs représentés dans le catalogue.

de cette collaboration, même avec un langage commun, peut encore être inefficace si chaque partie est laissée à elle-même pour présenter ses spécifications ou exigences e agrégateur. L'établissement de normes et de modèles peut grandement réduire cette inefficacité et j'en discuterai dans mon prochain article.




Source link