Fermer

juin 2, 2021

La valeur du lignage des données dans les services financiers (partie 1 sur 4)


Au cours des prochains articles de blog, je partagerai comment vous pouvez booster les programmes de gouvernance des données de votre entreprise en tirant parti des capacités de lignage des données. Les informations que je partagerai avec vous sont basées sur de nombreuses années d'expérience dans la direction et le soutien de grandes initiatives de gouvernance des données dans les institutions financières. Que vous soyez dans la banque commerciale, de détail ou d'investissement, la gestion d'actifs, les marchés des capitaux, les paiements ou l'assurance, vous pouvez bénéficier de l'utilisation de concepts, d'approches et d'outils de lignage de données.

Dans le post d'aujourd'hui, je vais discuter les principes fondamentaux du lignage des données et son rôle dans un cadre de gouvernance des données.

On a beaucoup écrit sur le lignage des données. Sa fonction est de tracer et de documenter le parcours des éléments de données, de leur point de création à tous les ensembles de données dans l'ensemble d'une organisation. Quel que soit le nombre de sauts, de téléchargements, de chargements et de transformations subis par ces éléments de données, un outil de lignage de données performant suivra le parcours d'un système à l'autre et d'une table à l'autre et aidera à combler les lacunes entre les points d'intervention et de traitement manuels.[19659002]Les outils de lignage de données sont l'utilitaire de choix pour démêler et mettre de l'ordre dans des flux de systèmes complexes et interdépendants et sont essentiels pour identifier la « source idéale » des éléments de données critiques dans une entreprise.

Par exemple, en tant que taux de financement sécurisé au jour le jour ( SOFR) remplace le taux interbancaire offert à Londres (LIBOR), les institutions financières ont utilisé des outils de lignage de données pour trouver toutes les références aux taux LIBOR. Bien qu'il s'agisse d'un cas d'utilisation parfait pour un outil de lignage des données et de la raison exacte pour laquelle ces outils existent, ils peuvent jouer un rôle encore plus important dans une organisation en permettant aux entreprises de surcharger leurs programmes de gouvernance des données.

DAMA International DMBoK[

(Data Management Book of Knowledge) définit la gouvernance des données comme « l'exercice de l'autorité et du contrôle (planification, surveillance et application) sur la gestion des actifs de données. »

Domaines de pratique de la gestion des données

Dans la pratique, la gouvernance des données est le terme général englobant la propriété, la confidentialité, le contrôle, la sécurité et la qualité des données. La gestion de ces attributs et métriques doit être appliquée dans toute l'organisation, quel que soit l'endroit où les données sont en transit, mises en scène, stockées, stockées ou archivées.

À l'appui de la gouvernance des données, des applications spécialisées traitent un ou plusieurs de ces composants. Dans certains cas, c'est avec une suite intégrée d'applications, tandis que dans d'autres, c'est avec un outil de pointe qui aborde un seul domaine.

 Surcharger le processus de gouvernance des données dans les services financiers avec le lignage des données

En règle générale, un programme de gouvernance des données exploitera des outils tels que :

  • Glossaire d'entreprise : termes/définitions/classifications pour les éléments de données clés
  • Catalogue de données : un référentiel centralisé pour tous les éléments de métadonnées dans tous les ensembles de données/tableaux d'une entreprise
  • Règles de qualité des données : règles de qualité pour les éléments de données ; codés en dur, déduits des métadonnées et/ou basés sur l'IA/ML

Lorsqu'ils sont combinés, ces outils, s'ils sont largement mis en œuvre au sein de l'entreprise, servent efficacement de base à un programme de gouvernance des données. Les éléments de données clés peuvent être entièrement annotés en termes commerciaux, la sensibilité des informations peut être notée [e.g., personally identifiable information (PII), material non-public information (MNPI), etc.]et les analyses du référentiel de données par le catalogue

peuvent fournir un inventaire complet des champs de données/attributs/caractéristiques. Qu'elles soient attribuées ou dérivées via l'inférence AI/ML, les règles de qualité des données peuvent être appliquées à la source, au référentiel (entrepôt, lac, etc.) ou à des points d'utilisation clés, tels que les rapports réglementaires.

Bien qu'efficaces, ces outils, même s'ils sont bien intégrés, produisent un processus manuel plus intensif que nécessaire et sont mûrs pour des lacunes dans le contrôle. C'est dans ce contexte que le lignage des données peut transformer le processus de gouvernance des données.

Par exemple, si un élément de données clé est marqué à sa source d'origine comme PII et est ensuite lu, transformé, stocké, téléchargé ou chargé par des dizaines de programmes et systèmes tout au long de son parcours, le catalogue ne connaîtrait que l'existence du champ de données résultant dans les tables et fichiers de données en aval. Au mieux, avec l'application de l'IA, le catalogue pourrait être en mesure de déduire, bien que sans certitude, la relation du champ avec l'élément de données clé et sa démarcation en tant que PII.

La même association faiblement couplée s'appliquerait au glossaire et à l'entreprise. règles de qualité des données. Plus le champ en aval résultant est transformé ou dérivé, moins il est probable qu'un algorithme AI/ML bien entraîné soit capable de faire l'association.

Le lignage des données connaît la localisation de tous les emplacements en aval d'un élément de données donné, qu'il soit inchangé. , transformé, ou la base d'un champ dérivé, et peut fournir la certitude nécessaire pour appliquer automatiquement les contrôles associés à l'élément d'origine. Les instances en aval (ou spawn) d'un champ donné peuvent « hériter » des désignations, des protections de confidentialité, des règles de qualité, des termes commerciaux, etc., de l'élément source.

Lorsque les divers attributs de contrôle associés à toutes les instances en aval d'un élément de données sont connus, le masquage automatisé, le chiffrement et les droits d'accès peuvent être appliqués sans lacunes potentielles dans la gouvernance et sans étiqueter manuellement chaque élément. programme. Il est aussi crucial de savoir qui peut voir les données sensibles que de savoir où les données existent dans l'entreprise.

En règle générale, les droits d'accès aux données sont accordés au niveau d'un fichier ou d'une table, certaines implémentations réduisant la résolution au niveau de l'élément de données, où il est pris en charge par la capacité de stockage associée (par exemple, l'accès aux éléments de données dans un fichier plat est une affaire de tout ou rien). Comme ces individus ou systèmes ayant accès aux données créent des ensembles de données en aval contenant des copies ou des versions dérivées des données d'origine, le propriétaire des données d'origine (ou le responsable assigné) perd souvent la vision et le contrôle des droits qui en découlent.

Comme dans l'exemple précédent de classifications de sensibilité des données, une fois que le lignage des données est intégré au processus d'autorisation, tous les ensembles de données en aval peuvent hériter des restrictions d'autorisation associées aux éléments de données d'origine, éliminant ainsi une grande partie de la maintenance manuelle de la fonction tout en garantissant que les informations sensibles sont protégées dès le début et uniquement visibles par ceux qui sont autorisés à le faire.

Au-delà de la visibilité et du contrôle améliorés offerts par une fonction de gouvernance des données basée sur la lignée, il existe également des avantages financiers importants. La réduction de l'effort manuel requis pour maintenir la génération dynamique et l'évolution des données dans l'ensemble de l'entreprise entraîne des économies de coûts importantes et, par conséquent, un retour sur investissement supérieur.

Dans mon prochain article, je discuterai de ce à quoi ressemble une solution de lignage de données automatisé.

En attendant, si vous souhaitez en savoir plus sur ce sujet, pensez à télécharger notre guide Supercharger la gouvernance des données dans les services financiers avec le lignage des données.

À propos de l'auteur

David Willner est un responsable des technologies de l'information axé sur les affaires dans la pratique des services financiers de Perficient. Sa spécialité est les programmes de transformation et de stratégie de données. Avant Perficient, il a été directeur général chez J.P. Morgan Chase, directeur général principal et directeur du développement chez Bear Stearns, et directeur de l'information, contrôleurs d'entreprise, chez AIG. Lorsqu'il n'améliore pas les opérations, les systèmes et les données de notre client, il joue de la guitare dans son groupe de blues/rock.

En savoir plus sur cet auteur




Source link