Linion de bout en bout et accès aux données brutes externes dans Databricks / Blogs / Ferfient

Atteindre la lignée de bout en bout Databricks Bien que permettre aux utilisateurs externes d’accéder aux données brutes puisse être une tâche difficile. Dans Databricks, en tirant parti Catalogue d’unité pour lignée de bout en bout est une meilleure pratique. Cependant, l’activation des utilisateurs externes d’accéder aux données brutes tout en maintenant la sécurité et l’intégrité de la lignée nécessite une architecture bien pensée. Ce blog décrit une architecture de référence pour atteindre cet équilibre.
Exigences clés
Pour répondre aux besoins des utilisateurs internes et externes, l’architecture doit:
- Maintenez la lignée de bout en bout dans Databricks à l’aide du catalogue Unity.
- Permettez aux utilisateurs externes d’accéder aux données brutes sans compromettre la gouvernance.
- Données sécurisées tout en maintenant la flexibilité pour différents cas d’utilisation.
Architecture recommandée
1. Lac de données brutes partagées (pré-bronze)
L’architecture commence par un Lac de données partagée En tant que zone d’atterrissage pour les données brutes et non transformées de diverses sources. Ce lac de données est situé dans un stockage externe en nuage, comme AWS S3 ou Azure Data Lakeet est indépendant des databricks. L’accès à ces données est géré en utilisant IAM Rôles et politiquespermettant aux utilisateurs de données et aux utilisateurs externes d’interagir avec les données sans les autorisations de chevauchement.
Avantages:
- Les utilisateurs externes peuvent accéder aux données brutes sans entrée directe dans le Lakehouse de Databricks.
- Gestion des données brutes sécurisées et isolées.
- Maintient la disponibilité des données pour les consommateurs non-databricks.
2. Couche de bronze (gérée par Databricks)
Le couche de bronze Ingère les données brutes du lac de données partagées en databricks. En utilisant Delta Live Tables (DLT)Les données sont traitées et stockées en tant que tables delta gérées ou externes. Unity Catalog régit ces tableaux, appliquant le contrôle d’accès à grain fin pour maintenir la sécurité des données et la lignée. La lignée de bout en bout et les databricks commencent par la couche BRONNE et peuvent être facilement maintenues tout au long de l’argent et de l’or en utilisant des DLT.
Gouvernance:
- Les autorisations sont appliquées par le catalogue Unity.
- Le versioning de données et le suivi de la lignée sont maintenus dans Databricks.
3. Couches d’argent et d’or (données traitées)
Le traitement ultérieur des données transforme les données de bronze en raffinés (argent) et agrégé (or) tables. Ces couches sont exclusivement gérées dans les données de données pour assurer la continuité de la lignée, en tirant parti Delta Lake’s fonctionnalités d’optimisation.
Accéder:
- Les utilisateurs internes accèdent aux données via un catalogue Unity avec des autorisations appropriées.
- Les utilisateurs externes n’ont pas un accès direct à ces couches organisées, en préservant la qualité des données.
Modèles d’accès
- Utilisateurs externes: Accédez aux données brutes du lac de données partagées via des stratégies IAM configurées. Aucun accès direct aux tables de bronze gérées par Databricks.
- Utilisateurs internes: Accédez au pipeline de données complet du bronze à l’or dans Databricks, en tirant parti du catalogue Unity pour un accès sécurisé et contrôlé.
Pourquoi cette architecture fonctionne
- Sécurité: Sépare les données brutes du bronze géré, réduisant l’exposition.
- Gouvernance: Unity Catalogue maintient un contrôle et une lignée d’accès stricts.
- Performance: Les avantages du traitement des données internes des optimisations du lac Delta, tandis que les données brutes restent facilement accessibles pour les systèmes externes.
Lignée de bout en bout dans les databricks
Cette architecture de référence offre une approche équilibrée pour gérer l’accès aux données brutes tout en maintenant la gouvernance et la lignée au sein de Databricks. En isolant des données brutes dans un lac partagé et en gérant les données traitées dans les données de données, les organisations peuvent efficacement prendre en charge l’analyse interne et le partage de données externes.
Contactez-nous Pour en savoir plus sur la façon d’autonomiser vos équipes avec les bons outils, les processus et la formation pour débloquer le plein potentiel de Databricks dans votre entreprise.
Source link