Fermer

mars 4, 2024

Aperçu public de la Fédération Databricks Lakehouse / Blogs / Perficient

Aperçu public de la Fédération Databricks Lakehouse / Blogs / Perficient


Parfois, c’est agréable de pouvoir sauter une étape. La plupart des projets de données impliquent un déplacement de données avant l’accès aux données. Habituellement, ce n’est pas un problème ; tout le monde est d’accord sur le fait que les données doivent être fait disponible avant qu’il puisse être disponible. Il existe des cas d’utilisation dans lesquels la partie déplacement des données constitue un bloqueur en raison du temps, du coût, de la complexité, de la disponibilité des ressources ou pour diverses raisons. Les utilisateurs professionnels peuvent avoir besoin d’effectuer des rapports ad hoc sur des ensembles de données disparates pendant une courte période pour un cas d’utilisation isolé. Les fusions et acquisitions créent souvent des périodes pendant lesquelles les données des différents systèmes doivent être mises à disposition avant que la migration officielle ne soit terminée. Certains travaux de POC ou d’exploration n’ont légitimement pas encore de budget, car l’analyse de rentabilisation ne peut être réalisée sans au moins des informations préliminaires. Il existe bien sûr des solutions de contournement, mais elles ne sont généralement pas conformes aux restrictions standard en matière de sécurité et de gouvernance d’entreprise. Vous ne pouvez pas avoir d’accès non autorisé aux informations personnelles simplement parce que c’est temporaire et pratique. C’est une lacune qui Fédération Databricks Lakehouse cherche à combler.

Aperçu

Databricks Lakehouse Federation vous permet d’exécuter des requêtes d’exécution sur plusieurs sources de données sans déplacer les données et assure toujours la gouvernance des données, le lignage des données et un contrôle d’accès précis via Unity Catalog. En passant, il est intéressant de noter combien d’innovation vous pouvez faire dans un environnement réglementé une fois que vous disposez d’un métastore centralisé capable d’un contrôle d’accès, d’un lignage et d’une découverte précis. Databricks utilise deux composants pour activer la fédération de données : les connexions et un catalogue étranger. Le concept de connexions est assez simple ; vous devez être en mesure de fournir des informations sur le chemin et les informations d’identification pour accéder à une base de données dans n’importe quelle implémentation. Le catalogue étranger c’est l’innovation.

Catalogue Unity (étranger)

Le métastore Unity Catalog est composé d’objets sécurisables dans une hiérarchie (Catalogue -> Schéma -> [Table, View, Volume, Model, Function]. Un catalogue étranger est un objet sécurisable qui se situe au même niveau que Catalog dans la hiérarchie, à l’exception du miroir en lecture seule d’une base de données externe. Je vais inclure l’extrait de code utilisé pour créer un catalogue étranger juste pour montrer à quel point Databricks a simplifié l’implémentation.

CREATE FOREIGN CATALOG [IF NOT EXISTS] <catalog-name> USING CONNECTION <connection-name>
OPTIONS (database '<database-name>');

Vous avez peut-être remarqué que vues matérialisées ont été pris en charge pour la première fois lorsque Tableaux en direct Delta ont été mis à disposition. Une vue matérialisée permet de précalculer les résultats en fonction de la dernière version d’une table source selon un calendrier défini, plutôt que de les diffuser en continu. Encore une fois, voici un extrait de code juste pour montrer la facilité de mise en œuvre.

CREATE MATERIALIZED VIEW xyz AS SELECT * FROM federated_catalog.federated_schema.federated_table;

Intelligence des données - L'avenir du Big Data
L’avenir du Big Data

Avec quelques conseils, vous pouvez créer une plateforme de données adaptée aux besoins de votre organisation et tirer le meilleur parti de votre capital de données.

Obtenez le guide

Vous pouvez tirer parti de votre expérience avec Unity Catalog et des objets sécurisables avec des catalogues étrangers et des vues matérialisées. Tu peux voir les détails du catalogue, gérer les privilèges et capturer et visualiser le traçage des données de la même manière que vous le feriez avec un catalogue ordinaire. La seule différence est que vous pouvez effectuer des requêtes en lecture seule sur des données sans les avoir déplacées dans Databricks,

Conclusion

Ceci est toujours en version préliminaire publique, il peut donc y avoir certaines restrictions de mise en œuvre qui peuvent changer au fil du temps. La prise en charge de Private Link et de plages d’adresses IP statiques sur l’entrepôt SQL sans serveur n’est pas disponible. Le modèle d’accès mono-utilisateur n’est disponible que pour les utilisateurs propriétaires de la connexion. Il y a règles et limitations de dénomination dans Unity Catalog qui peuvent différer de la base de données source, comme l’application de noms de table en minuscules. Cependant, nous pouvons donner à nos partenaires commerciaux la possibilité d’accéder très rapidement aux données de la plupart des bases de données sans déplacer les données et sans sacrifier la sécurité et la gouvernance. Je me souviens d’un certain nombre de fois où j’aurais aimé avoir accès à ce type de flexibilité consciencieuse pour des analyses temporelles et je suis sûr que cela reviendra très bientôt.






Source link