Fermer

août 23, 2024

La puissance technique du catalogue Unity

La puissance technique du catalogue Unity


Si vous utilisez Briques de donnéestu le sais probablement

Databricks Unity Catalog est la seule solution de gouvernance unifiée et ouverte du secteur pour les données et l’IA, intégrée à la plateforme Databricks Data Intelligence. Avec Unity Catalog, les organisations peuvent gérer de manière transparente les données structurées et non structurées dans n’importe quel format, ainsi que les modèles d’apprentissage automatique, les blocs-notes, les tableaux de bord et les fichiers sur n’importe quel cloud ou plateforme.

Unity Catalog offre une gouvernance centralisée des données, un contrôle d’accès précis, rationalise la découverte et le traçage des données et automatise l’audit et la conformité. La gouvernance de Lakehouse est un élément essentiel d’une stratégie de données d’entreprise et Unity Catalog est un incontournable pour toute entreprise qui utilise Databricks. Il s’agit d’un message tellement clair et important que certaines autres fonctionnalités activées par Unity Catalog sont parfois négligées. Prenons un peu de temps et voyons comment Unity Catalog peut vous faire économiser de l’argent.

Clustering liquide

Agglomération liquide offre des avantages de performance significatifs aux environnements d’analyse de données à grande échelle en réorganisant les données de manière dynamique pour optimiser les performances de stockage et de requête en analysant continuellement les modèles de requête et la fréquence d’accès aux données. Les données accessibles ensemble sont stockées ensemble, ce qui réduit la quantité de données analysées. Le saut de données, qui consiste à ignorer les données non pertinentes, présente des avantages significatifs en termes de performances et de coûts. Les coûts informatiques sont également réduits puisque le reclusting était auparavant une tâche de maintenance manuelle. Le partitionnement manuel et l’ordre Z sont également difficiles, ce qui a pris un temps précieux pour ne probablement pas très bien faire le travail.

Performances de requête améliorées

Unity Catalog est bien connu comme emplacement de métastore centralisé dans le contexte de la gouvernance. Toutefois, la gestion des statistiques à l’échelle du catalogue peut également améliorer les performances des requêtes. Unity Catalog peut fournir des pans d’exécution plus efficaces car il conserve des métadonnées et des statistiques complètes. De plus, les capacités de métadonnées de Unity Catalog peuvent aider à gérer efficacement les partitions et les index. Un plan d’exécution plus efficace, de meilleures partitions et des index plus efficaces entraînent des temps de requête plus rapides. Des temps de requête plus rapides entraînent une réduction des coûts et une expérience utilisateur améliorée.

Prise en charge de charges de travail complexes

Les charges de travail de données évoluent en taille et en complexité au rythme de la croissance et de l’adoption de votre Lakehouse. En règle générale, cela entraînerait une augmentation des charges de travail de maintenance et d’administration. Cependant, Unity Catalog prend en charge l’organisation et l’isolation des charges de travail au sein de différents schémas et catalogues. Cet isolement optimise l’allocation des ressources et minimise les conflits entre les différentes équipes. Cette isolation et cette optimisation minimisent le besoin de faire évoluer des ressources supplémentaires au-delà de ce qui serait nécessaire pour les nouvelles charges de travail.

Gestion des données multirégionales

L’une des capacités de gouvernance les plus puissantes de Unity Catalog est la mise en œuvre transparente du multi-cloud. Un cas d’utilisation courant du multi-cloud est la continuité des activités et la reprise après sinistre. Outre la capacité multi-cloud, vous bénéficiez également d’une gestion des données multi-régions. L’optimisation du placement des données et des modèles d’accès en fonction de considérations régionales peut réduire la latence et améliorer les performances globales.

Conclusion

Unity Catalog fait partie intégrante de Databricks. Si vous n’avez pas encore migré depuis Hive Metastore, prévoyez de le faire. Les fonctionnalités de sécurité et de gouvernance sont à elles seules obligatoires pour la plupart des entreprises et certainement pour toutes les entreprises réglementées. Cependant, il n’est pas nécessaire que les motivations soient uniquement basées sur le bâton et sans carotte. Chaque entreprise qui utilise Databricks bénéficiera probablement d’un avantage financier grâce au clustering liquide et à l’amélioration des performances des requêtes. Comme ces économies sont gratuites ; aucune administration n’est nécessaire. Les entreprises ayant une empreinte plus importante peuvent également bénéficier d’avantages financiers grâce à l’isolation des charges de travail. Enfin, certaines entreprises peuvent voir un avantage dans la gestion des données multirégionales alors qu’une telle stratégie n’était même pas envisagée auparavant en raison de sa complexité perçue.

Entrer en contact Contactez-nous pour une évaluation gratuite et découvrez comment l’expertise interne et les accélérateurs personnalisés peuvent vous aider à migrer vers Unity Catalog.






Source link