Fermer

septembre 4, 2024

Unity Catalog, Lakehouse bien architecturé et excellence opérationnelle / Blogs / Perficient

Unity Catalog, Lakehouse bien architecturé et excellence opérationnelle / Blogs / Perficient


J’ai écrit sur l’importance de migration vers Unity Catalog comme élément essentiel de votre Plateforme de gestion de données. Tout exercice de migration implique le passage d’un état actuel à un état futur. Une migration de Hive Metastore vers Unity Catalog nécessitera une planification autour des espaces de travail, des catalogues et de l’accès des utilisateurs. C’est également l’occasion de réaligner certaines de vos pratiques actuelles qui peuvent être moins qu’optimales avec des pratiques plus récentes et meilleures. En fait, certaines de ces améliorations pourraient être plus faciles à financer qu’un simple jeu de gouvernance. Un modèle complet à utiliser à titre indicatif est le Framework Lakehouse bien architecturé Databricks. J’ai discuté des sept piliers du maison de lac bien architecturée cadre en général et maintenant je veux me concentrer sur excellence opérationnelle.

Excellence opérationnelle

Excellence opérationnelleJ’aime les opérations. DevOps. MLOps. DevSecGovOps. Je suis fan du contrôle statistique des processus en général et de la théorie des contraintes en particulier.

« Toute amélioration apportée ailleurs qu’au niveau du goulot d’étranglement est une illusion. »

Je préfère l’ordre d’opérations suivant pour implémenter les opérations. Première étape, introduire la surveillance. Rien ne veut rien dire sans mesure. Deuxième étape : introduire des limites de capacité et des quotas pour chaque service afin de définir les limites. Troisième étape, automatisez tout. Quatrième étape, éliminer les goulots d’étranglement. Il n’y aura jamais, au grand jamais, de cinquième étape.

Intelligence des données - L'avenir du Big Data
L’avenir du Big Data

Avec quelques conseils, vous pouvez créer une plateforme de données adaptée aux besoins de votre organisation et tirer le meilleur parti de votre capital de données.

Obtenez le guide

Surveillance

La surveillance sans alerte n’est pas particulièrement utile. Alerter sans chaîne de responsabilité n’est pas non plus particulièrement utile. L’activation d’Unity Catalog donne à vos données la possibilité de baliser et de gérer de manière granulaire votre plateforme de données. Je recommande d’évaluer votre plateforme de surveillance dans le but ultime d’obtenir des données en libre-service. Surveillez votre maison du lac. Surveillez votre Entrepôt SQL. Surveillez votre emplois. En réfléchissant à ce processus, les métriques que vous surveillerez et les personnes qui seront alertées des réponses que vous attendez peuvent éclairer la façon dont vous configurez vos catalogues, votre espace de travail et votre balisage dans Unity Catalog. La surveillance n’est pas le seul point de données dans la configuration d’Unity Catalog, mais je pense qu’elle est plus importante que de nombreux services informatiques avant de commencer la migration.

Limites de capacité et quotas

C’est à mon avis un véritable signal d’alarme. Rappelez-vous comment nous avons discuté optimisation des coûts? Les limites de capacité et les quotas visent davantage à aligner les coûts sur la valeur commerciale. Plus vous pourrez aligner votre surveillance sur des unités distinctes de valeurs commerciales en fonction de votre environnement d’entreprise. S’agit-il d’unités commerciales ? Des secteurs d’activité ? Quotas de ressources du catalogue Unity peut changer votre perspective d’un simple déplacement du Hive Metastore à une migration éclairée par une valeur commerciale pratique. Fixer des limites de capacité et des quotas sur les ressources stimulera ce type de réflexion.

Automation

Terraforme. Emplois Databricks. Les outils n’ont pas autant d’importance qu’un simple engagement envers l’attitude Infrastructure-as-Code et Configuration-as-Code. Automatisez simplement les scripts shell avec le CLI Databricks; c’est mieux que d’utiliser l’interface utilisateur. En fait, je ne veux pas consacrer beaucoup de temps à cela parce que je ne veux pas que quiconque s’enlise dans des guerres d’outils.

Goulots d’étranglement

L’identification des goulots d’étranglement devient très facile lorsque vous disposez de limites de capacité et de quotas alignés sur les mesures commerciales utilisées par l’équipe de direction si vous communiquez clairement. Vos goulots d’étranglement seront communiqués très fort et très clairement. Vous serez très heureux d’avoir effectué le travail d’automatisation pour effectuer des tests A/B et obtenir des commentaires sur votre surveillance. Votre équipe deviendra très bonne dans différents domaines optimisation des coûts techniques.

Conclusion

Ce sujet n’est pas techniquement difficile mais il représente un lourd fardeau politique. Lorsque je parle d’excellence opérationnelle, les gens s’attendent à une analyse approfondie d’une comparaison d’outils. Ce n’est pas la partie la plus difficile à mon avis. Automatisez avec Terraform. La surveillance n’est même pas si difficile ; utilisez les outils de surveillance fournis par Databricks et votre fournisseur de cloud. Le défi consiste à tirer parti de votre migration vers Unity Catalog pour aligner plus étroitement les équipes commerciales, technologiques et de direction autour de vos actifs de données, d’apprentissage automatique et d’intelligence artificielle. À première vue, tels sont les objectifs de la gouvernance. Les data scientists, les analystes et les ingénieurs doivent pouvoir découvrir, accéder et collaborer en toute sécurité sur des données fiables et des actifs d’IA pour libérer tout le potentiel de l’environnement Lakehouse. En théorie, c’est la responsabilité de chacun. En pratique, tout dépend de l’informatique. L’excellence opérationnelle est un enjeu de table.






Source link