Fermer

août 31, 2024

Le catalogue Unity et le Lakehouse bien architecturé dans Databricks / Blogs / Perficient

Le catalogue Unity et le Lakehouse bien architecturé dans Databricks / Blogs / Perficient


J’ai écrit sur l’importance de migration vers Unity Catalog comme élément essentiel de votre Plateforme de gestion de données. Tout exercice de migration implique le passage d’un état actuel à un état futur. Une migration de Hive Metastore vers Unity Catalog nécessitera une planification autour des espaces de travail, des catalogues et de l’accès des utilisateurs. C’est également l’occasion de réaligner certaines de vos pratiques actuelles qui peuvent être moins qu’optimales avec des pratiques plus récentes et meilleures. En fait, certaines de ces améliorations pourraient être plus faciles à financer qu’un simple jeu de gouvernance. Un modèle complet à utiliser à titre indicatif est le Framework Lakehouse bien architecturé Databricks.

Lakehouse bien architecturé

Databricks empruntés au Cadre AWS bien architecturé (moins le pilier Durabilité) et a ajouté la gouvernance des données, l’interopérabilité et la convivialité.

Lakehouse bien architecturé Cela nous donne sept piliers sur lesquels nous devons nous préoccuper. Je vais même ajouter des métriques et des rapports comme base. En réalité, il y a beaucoup de raisons de s’inquiéter avant de migrer vers Unity Catalog. Il s’agit d’une migration, donc je suppose que vous êtes à un moment donné de votre voyage en gravissant chacun de ces piliers. Je pense aussi que c’est la meilleure façon de considérer ces piliers comme un voyage plutôt que comme une destination. Mais je pense qu’une migration vers Unity Catalog est une excellente opportunité de revoir où vous en êtes et où vous souhaitez être d’un point de vue stratégique et organisationnel et de construire votre migration en conséquence. En outre, d’un point de vue pratique, il est logique que certains de ces piliers soient abordés avant d’autres. Je mène toujours avec l’optimisation des coûts parce que chaque organisation a un impératif de contrôle des coûts et c’est généralement la première étape la plus simple à financer. D’après mon expérience, les performances et l’efficacité viennent juste derrière, car c’est ainsi que vos utilisateurs perçoivent la plate-forme lors d’une utilisation régulière. L’excellence opérationnelle reflète la façon dont vos utilisateurs perçoivent la plateforme lors de nouvelles demandes, de pannes et d’autres événements d’utilisation non réguliers. La sécurité garde les lumières allumées. La fiabilité est ce qui se produit lorsque les lumières s’éteignent. Enfin, nous pouvons nous concentrer sur les piliers les plus activés par Unity Catalog : la gouvernance et l’interopérabilité.

Premier pilier : optimisation des coûts

L’élément le plus important de l’optimisation des coûts est le suivi. Même si l’on peut en dire autant de l’excellence opérationnelle et de l’efficacité des performances, aucune autre mesure n’est aussi efficace pour défendre et évaluer l’efficacité de la valeur commerciale de la plateforme de données et d’intelligence. L’optimisation des charges de travail et l’optimisation de l’allocation des ressources sont un processus continu, mais c’est presque un effort inutile sans une surveillance appropriée. Unity Catalog déverrouille les tables système, ce qui permet à son tour suivi et prévision de la facturation. Nous passons en revue les composants techniques de l’optimisation des coûts, mais assurez-vous que vous disposez d’un mécanisme de suivi de vos dépenses. Chaque mise en œuvre peut être différente, mais il existe des concepts fondamentaux en matière d’optimisation des coûts qui sont universels.

Deuxième pilier : performance et efficacité

L’amélioration des performances et de l’efficacité de la plateforme Databricks entraînera à la fois une réduction des coûts et une expérience utilisateur améliorée, mais dépend encore plus d’une surveillance efficace. La performance et l’efficacité concernent davantage la manière dont le système est utilisé que la manière dont les ressources sont allouées. La conception de charges de travail axées sur les performances nécessite autant la capacité de tester et de surveiller les caractéristiques de performances que la connaissance des concepts sous-jacents à la plateforme afin de faire des choix éclairés en matière de stockage et de consommation de mémoire. Certaines bonnes pratiques de base peuvent guider vos équipes de développement.

Troisième pilier : Excellence opérationnelle

Intelligence des données - L'avenir du Big Data
L’avenir du Big Data

Avec quelques conseils, vous pouvez créer une plateforme de données adaptée aux besoins de votre organisation et tirer le meilleur parti de votre capital de données.

Obtenez le guide

Votre équipe ainsi que vos utilisateurs et votre direction devraient avoir beaucoup plus confiance dans le fonctionnement de la plateforme à ce stade de votre parcours de migration. Il est maintenant temps d’optimiser vos processus de création et de publication, d’automatiser les déploiements et les flux de travail, de gérer la capacité et les quotas et de tout mettre en œuvre dans une surveillance, une journalisation et un audit continus. C’est la partie du voyage où les Ops entrent en jeu ; automatisation via l’infrastructure et la configuration sous forme de code, CI/CD, etc. Bien qu’il existe certaines bonnes pratiques courantes dans ce domaine, Databricks a certaines considérations distinctes.

Quatrième pilier : sécurité, conformité et confidentialité

Ce quatrième pilier sera directement impacté par Unity Catalog autour du contrôle d’identité et d’accès. Il existe d’autres considérations fondamentales, telles que la protection des données au repos et en transit et le respect des normes et des réglementations qui sont probablement déjà en place. Les mesures prises en matière d’excellence opérationnelle auraient dû avoir la sécurité à l’esprit. C’est le bon moment pour revoir ces pipelines d’opérations pendant que vous examinez et mettez en œuvre d’autres bonnes pratiques.

Cinquième pilier : fiabilité

La fiabilité s’appuie et développe certains des sujets abordés dans d’autres piliers, comme l’automatisation, la surveillance et la mise à l’échelle automatique. Il va encore plus loin dans la gestion de la qualité des données, la conception en cas de panne et, en fin de compte, la conception et le test de scénarios réels de reprise après sinistre. D’après mon expérience, les entreprises sont très faibles en matière de reprise après sinistre et en sont parfaitement conscientes. Certaines pratiques fondamentales en matière de fiabilité peuvent fournir une feuille de route concrète vers la fiabilité.

Sixième pilier : Gouvernance des données et de l’IA

Enfin, nous abordons le sujet de la gouvernance, qui est souvent la motivation première de la migration du catalogue Unity. Après tout,

Databricks Unity Catalog est la seule solution de gouvernance unifiée et ouverte du secteur pour les données et l’IA, intégrée à la plateforme Databricks Data Intelligence. Avec Unity Catalog, les organisations peuvent gérer de manière transparente les données structurées et non structurées dans n’importe quel format, ainsi que les modèles d’apprentissage automatique, les blocs-notes, les tableaux de bord et les fichiers sur n’importe quel cloud ou plateforme.

La gouvernance à ce niveau nécessite des normes et des pratiques établies en matière de qualité des données ainsi qu’un modèle unifié de gestion, de sécurité et d’accès des données et de l’IA. De préférence automatisé. Il existe des bonnes pratiques très distinctes en matière de données, d’apprentissage automatique et d’intelligence artificielle qui s’avéreraient difficiles à mettre en œuvre sans le travail fondamental des piliers précédents, en particulier des piliers un à quatre.

Septième pilier : interopérabilité et convivialité

Ce dernier pilier est essentiellement la valeur commerciale de votre plateforme Databricks ; sa capacité à servir les utilisateurs et les systèmes. La convivialité est une mesure de la capacité des utilisateurs à libérer la valeur commerciale de votre plateforme de manière sûre, efficace et efficiente. L’interopérabilité est un élément clé d’une maison de lac dans la mesure où elle mesure la capacité des systèmes à interagir avec d’autres systèmes, également de manière sûre, efficace et efficiente. Les caractéristiques d’un tel système incluent des normes ouvertes et définies en matière d’intégration, de formats de données et de gouvernance. L’interopérabilité devrait inclure la possibilité de publier et de consommer des données en toute sécurité sur des systèmes externes. La mise en œuvre de nouveaux cas d’utilisation doit privilégier le libre-service. Comme vous pouvez le constater, tous les piliers ont conduit à soutenir le plus haut degré d’interopérabilité et de convivialité. Il existe même d’autres bonnes pratiques qui peuvent amener les choses à un autre niveau.

Conclusion

Cette discussion sur un framework bien architecturé est issue du sujet de la migration du catalogue Unity. Ce n’était pas une tangente ; cela reflète le nombre de migrations de notre catalogue d’unités qui ont fonctionné dans la pratique. Stratégiquement, l’objectif est de libérer rapidement, en toute sécurité et efficacement la valeur commerciale des données en utilisant le reporting, l’analyse, l’apprentissage automatique et l’IA de manière cohérente, fiable et rentable dans toute l’entreprise. Unity Catalog débloque un grand nombre de ces fonctionnalités à partir de la plateforme de données et d’IA Databricks. Cependant, ces capacités, en l’absence d’un cadre bien architecturé, dilueront les résultats en augmentant les coûts d’administration, en diminuant la qualité et la quantité de la réalisation des cas d’utilisation et en augmentant l’exposition aux risques.

Faites-nous savoir comment nous pouvons vous aider d’un point de vue stratégique et de mise en œuvre.






Source link