Fermer

février 29, 2024

Gouvernance des lacs de données avec balisage dans Databricks Unity Catalog / Blogs / Perficient

Gouvernance des lacs de données avec balisage dans Databricks Unity Catalog / Blogs / Perficient


L’objectif de Databricks Unity Catalog est de fournir une sécurité et une gestion centralisées des données et des actifs d’IA dans l’ensemble du lac de données. Unity Catalog fournit un contrôle d’accès précis pour tous les objets sécurisables du Lakehouse ; bases de données, tables, fichiers et même modèles. Finies les limitations du magasin de métadonnées Hive. Le métastore Unity Catalog gère toutes les données et ressources d’IA dans différents espaces de travail et emplacements de stockage. Fournir ce niveau de contrôle d’accès augmente considérablement la qualité de la gouvernance tout en réduisant la charge de travail impliquée. Il existe une cible d’opportunité supplémentaire avec le marquage.

Présentation du marquage

Les balises sont des éléments de métadonnées structurés sous forme de paires clé-valeur qui peuvent être attachées à n’importe quel actif du Lakehouse. Le balisage peut rendre ces actifs plus consultables, gérables et gouvernables. Une stratégie de balisage bien structurée et bien exécutée peut améliorer la classification des données, permettre la conformité réglementaire et rationaliser la gestion du cycle de vie des données. La première étape consiste à identifier un cas d’utilisation qui pourrait être utilisé comme preuve de valeur dans votre organisation. Une stratégie de marquage bien structurée signifie que vous aurez besoin de l’adhésion et de la participation de plusieurs parties prenantes, notamment des ressources techniques, des PME et un sponsor. Il s’agit de cinq cas d’utilisation courants du marquage qui pourraient trouver un certain intérêt dans une entreprise réglementée, car ils peuvent généralement s’appuyer sur une initiative existante ou à venir :

  • Classification et sécurité des données
  • Gestion du cycle de vie des données
  • Conformité et réglementation
  • Gestion de projet et collaboration

Classification et sécurité des données

Il y a toujours de la place pour un mécanisme supplémentaire pour aider à gérer en toute sécurité les PII (informations personnellement identifiables). Une mise en œuvre initiale de base du balisage pourrait être aussi simple que l’application d’une balise PII pour classer les données en fonction de leur sensibilité. Ces balises peuvent ensuite être intégrées aux politiques de contrôle d’accès dans Unity Catalog pour accorder ou restreindre automatiquement l’accès aux données sensibles. Il est toujours difficile de trouver un équilibre entre la promesse de l’accès aux données dans Lakehouse et les réalités réglementaires entourant les données sensibles. Des outils supplémentaires sont toujours les bienvenus ici.

Gestion du cycle de vie des données

Certaines organisations ont du mal à gérer différents environnements dans Databricks. Cela est particulièrement vrai lorsqu’ils quittent un paysage de données où il existait des serveurs spécifiques pour chaque environnement. Les balises peuvent être utilisées pour identifier les étapes (ex : dev, test et prod). Ces balises peuvent ensuite être exploitées pour mettre en œuvre des politiques et des pratiques concernant le déplacement des données à travers différentes étapes du cycle de vie. Par exemple, les politiques de masquage ou les étapes de transformation peuvent être différentes selon les environnements. Les balises peuvent également être utilisées pour faciliter les règles concernant la destruction délibérée de données sensibles. Le géocodage des données avec des tags pour se conformer à la réglementation européenne est également une cible d’opportunité possible.

Catalogage et découverte de données

Il peut être avantageux d’attacher des balises descriptives directement aux données à des fins de catalogage et de découverte, même si vous utilisez déjà un outil externe. L’ajout de balises descriptives telles que « client » ou « marketing » directement aux actifs de données eux-mêmes peut permettre aux analystes et aux data scientists d’effectuer plus facilement des recherches et donc d’être plus susceptibles d’être réellement utilisés.

Conformité et réglementation

Intelligence des données - L'avenir du Big Data
L’avenir du Big Data

Avec quelques conseils, vous pouvez créer une plateforme de données adaptée aux besoins de votre organisation et tirer le meilleur parti de votre capital de données.

Obtenez le guide

Ceci est lié et peut être utilisé conjointement avec la classification et la sécurité des données. L’application de balises telles que « RGPD » ou « HIPAA » peut simplifier considérablement la réalisation d’audits pour les régulateurs. Ces balises peuvent être utilisées conjointement avec des balises de sécurité. Dans un environnement de données de plus en plus réglementé, il est avantageux de rendre vos actifs de données faciles à réglementer.

Gestion de projet et collaboration

Cette stratégie de balisage peut être utilisée pour organiser les actifs de données en fonction de projets, d’équipes ou de départements. Cela peut faciliter la gestion de projet et améliorer la collaboration en identifiant quelle unité organisationnelle possède ou travaille avec un actif de données particulier.

Mise en œuvre

Il y a quelques considérations pratiques lors de la mise en œuvre d’un programme de marquage :

  • chaque objet sécurisable a une limite de vingt balises
  • la longueur maximale d’une balise est de 255 caractères, aucun caractère spécial n’étant autorisé
  • vous ne pouvez effectuer une recherche qu’en utilisant la correspondance exacte (la correspondance de motifs aurait vraiment été sympa ici)

Une stratégie de marquage bien exécutée impliquera un certain niveau d’automatisation. Il est possible de gérer les balises dans l’Explorateur de catalogue. Cela peut être un bon moyen de démarrer dès le début, mais l’automatisation est essentielle pour une application cohérente et complète de la stratégie de marquage. La bonne gouvernance est automatisée. Bien que le balisage soit disponible pour tous les objets sécurisables, vous commencerez probablement par appliquer des balises aux tableaux.

Les tables de schéma d’informations contiendront les informations de balise. Cependant, Databricks Runtime 13.3 et versions ultérieures permettent la gestion des balises via des commandes SQL. Il s’agit du mécanisme préféré car il est beaucoup plus simple à utiliser que l’interrogation du schéma d’information. Quel que soit le mécanisme utilisé, un utilisateur doit disposer du privilège APPLY TAG sur l’objet, du privilège USE SCHEMA sur le schéma parent de l’objet et du privilège USE CATALOG sur le catalogue parent de l’objet. C’est assez typique de la hiérarchie à trois niveaux d’Unity Catalog. Si vous utilisez des commandes SQL pour gérer les balises, vous pouvez utiliser les clauses SET TAGS et UNSET TAGS dans la commande ALTER TABLE.

Vous pouvez utiliser un script PySpark assez simple pour parcourir un ensemble de tables, rechercher un certain ensemble de noms de colonnes, puis appliquer des balises, le cas échéant. Cela peut être effectué lors d’une première exécution unique, puis automatisé en créant une tâche distincte pour vérifier les nouvelles tables et/ou colonnes ou les inclure dans les processus d’ingestion existants. Il y a beaucoup à gagner en augmentant ce pipeline, depuis la simple utilisation d’un script qui vérifie les colonnes nommées « ssn » jusqu’à la création d’une tâche ML qui recherche les champs contenant des numéros de sécurité sociale.

Conclusion

J’ai vu de nombreuses entreprises avoir du mal à remplir leur Databricks Lakehouse avec des données sensibles. Dans leur état actuel, les bases de données comptaient un nombre très limité d’utilisateurs, de sorte que seules les personnes autorisées à consulter certaines données, comme les informations personnelles, avaient accès à la base de données qui stockait ces informations. Cependant, l’utilité d’un Lakehouse est considérablement réduite si vous n’autorisez pas les données sensibles. Dans la plupart des cas, cela n’obtiendra tout simplement aucun attrait pour l’entreprise. Tirer parti de toutes les fonctionnalités de gouvernance et de sécurité de Unity Catalog est une première étape importante, voire obligatoire. Améliorer la gouvernance et la sécurité, ainsi que l’utilité, grâce au balisage sera probablement nécessaire à un degré ou à un autre dans votre organisation pour obtenir une utilisation et une acceptation généralisées.






Source link