J’ai écrit sur l’importance de migration vers Unity Catalog comme élément essentiel de votre Plateforme de gestion de données. Tout exercice de migration implique le passage d’un état actuel à un état futur. Une migration de Hive Metastore vers Unity Catalog nécessitera une planification autour des espaces de travail, des catalogues et de l’accès des utilisateurs. C’est également l’occasion de réaligner certaines de vos pratiques actuelles qui peuvent être moins qu’optimales avec des pratiques plus récentes et meilleures. En fait, certaines de ces améliorations pourraient être plus faciles à financer qu’un simple jeu de gouvernance. Un modèle complet à utiliser à titre indicatif est le Framework Lakehouse bien architecturé Databricks.
Lakehouse bien architecturé
Databricks empruntés au Cadre AWS bien architecturé (moins le pilier Durabilité) et a ajouté la gouvernance des données, l’interopérabilité et la convivialité.
Premier pilier : optimisation des coûts
L’élément le plus important de l’optimisation des coûts est le suivi. Même si l’on peut en dire autant de l’excellence opérationnelle et de l’efficacité des performances, aucune autre mesure n’est aussi efficace pour défendre et évaluer l’efficacité de la valeur commerciale de la plateforme de données et d’intelligence. L’optimisation des charges de travail et l’optimisation de l’allocation des ressources sont un processus continu, mais c’est presque un effort inutile sans une surveillance appropriée. Unity Catalog déverrouille les tables système, ce qui permet à son tour suivi et prévision de la facturation. Nous passons en revue les composants techniques de l’optimisation des coûts, mais assurez-vous que vous disposez d’un mécanisme de suivi de vos dépenses. Chaque mise en œuvre peut être différente, mais il existe des concepts fondamentaux en matière d’optimisation des coûts qui sont universels.
Deuxième pilier : performance et efficacité
L’amélioration des performances et de l’efficacité de la plateforme Databricks entraînera à la fois une réduction des coûts et une expérience utilisateur améliorée, mais dépend encore plus d’une surveillance efficace. La performance et l’efficacité concernent davantage la manière dont le système est utilisé que la manière dont les ressources sont allouées. La conception de charges de travail axées sur les performances nécessite autant la capacité de tester et de surveiller les caractéristiques de performances que la connaissance des concepts sous-jacents à la plateforme afin de faire des choix éclairés en matière de stockage et de consommation de mémoire. Certaines bonnes pratiques de base peuvent guider vos équipes de développement.
Troisième pilier : Excellence opérationnelle
L’avenir du Big Data
Avec quelques conseils, vous pouvez créer une plateforme de données adaptée aux besoins de votre organisation et tirer le meilleur parti de votre capital de données.
Votre équipe ainsi que vos utilisateurs et votre direction devraient avoir beaucoup plus confiance dans le fonctionnement de la plateforme à ce stade de votre parcours de migration. Il est maintenant temps d’optimiser vos processus de création et de publication, d’automatiser les déploiements et les flux de travail, de gérer la capacité et les quotas et de tout mettre en œuvre dans une surveillance, une journalisation et un audit continus. C’est la partie du voyage où les Ops entrent en jeu ; automatisation via l’infrastructure et la configuration sous forme de code, CI/CD, etc. Bien qu’il existe certaines bonnes pratiques courantes dans ce domaine, Databricks a certaines considérations distinctes.
Quatrième pilier : sécurité, conformité et confidentialité
Ce quatrième pilier sera directement impacté par Unity Catalog autour du contrôle d’identité et d’accès. Il existe d’autres considérations fondamentales, telles que la protection des données au repos et en transit et le respect des normes et des réglementations qui sont probablement déjà en place. Les mesures prises en matière d’excellence opérationnelle auraient dû avoir la sécurité à l’esprit. C’est le bon moment pour revoir ces pipelines d’opérations pendant que vous examinez et mettez en œuvre d’autres bonnes pratiques.
Cinquième pilier : fiabilité
La fiabilité s’appuie et développe certains des sujets abordés dans d’autres piliers, comme l’automatisation, la surveillance et la mise à l’échelle automatique. Il va encore plus loin dans la gestion de la qualité des données, la conception en cas de panne et, en fin de compte, la conception et le test de scénarios réels de reprise après sinistre. D’après mon expérience, les entreprises sont très faibles en matière de reprise après sinistre et en sont parfaitement conscientes. Certaines pratiques fondamentales en matière de fiabilité peuvent fournir une feuille de route concrète vers la fiabilité.
Sixième pilier : Gouvernance des données et de l’IA
Enfin, nous abordons le sujet de la gouvernance, qui est souvent la motivation première de la migration du catalogue Unity. Après tout,
Databricks Unity Catalog est la seule solution de gouvernance unifiée et ouverte du secteur pour les données et l’IA, intégrée à la plateforme Databricks Data Intelligence. Avec Unity Catalog, les organisations peuvent gérer de manière transparente les données structurées et non structurées dans n’importe quel format, ainsi que les modèles d’apprentissage automatique, les blocs-notes, les tableaux de bord et les fichiers sur n’importe quel cloud ou plateforme.
La gouvernance à ce niveau nécessite des normes et des pratiques établies en matière de qualité des données ainsi qu’un modèle unifié de gestion, de sécurité et d’accès des données et de l’IA. De préférence automatisé. Il existe des bonnes pratiques très distinctes en matière de données, d’apprentissage automatique et d’intelligence artificielle qui s’avéreraient difficiles à mettre en œuvre sans le travail fondamental des piliers précédents, en particulier des piliers un à quatre.
Septième pilier : interopérabilité et convivialité
Ce dernier pilier est essentiellement la valeur commerciale de votre plateforme Databricks ; sa capacité à servir les utilisateurs et les systèmes. La convivialité est une mesure de la capacité des utilisateurs à libérer la valeur commerciale de votre plateforme de manière sûre, efficace et efficiente. L’interopérabilité est un élément clé d’une maison de lac dans la mesure où elle mesure la capacité des systèmes à interagir avec d’autres systèmes, également de manière sûre, efficace et efficiente. Les caractéristiques d’un tel système incluent des normes ouvertes et définies en matière d’intégration, de formats de données et de gouvernance. L’interopérabilité devrait inclure la possibilité de publier et de consommer des données en toute sécurité sur des systèmes externes. La mise en œuvre de nouveaux cas d’utilisation doit privilégier le libre-service. Comme vous pouvez le constater, tous les piliers ont conduit à soutenir le plus haut degré d’interopérabilité et de convivialité. Il existe même d’autres bonnes pratiques qui peuvent amener les choses à un autre niveau.
Conclusion
Cette discussion sur un framework bien architecturé est issue du sujet de la migration du catalogue Unity. Ce n’était pas une tangente ; cela reflète le nombre de migrations de notre catalogue d’unités qui ont fonctionné dans la pratique. Stratégiquement, l’objectif est de libérer rapidement, en toute sécurité et efficacement la valeur commerciale des données en utilisant le reporting, l’analyse, l’apprentissage automatique et l’IA de manière cohérente, fiable et rentable dans toute l’entreprise. Unity Catalog débloque un grand nombre de ces fonctionnalités à partir de la plateforme de données et d’IA Databricks. Cependant, ces capacités, en l’absence d’un cadre bien architecturé, dilueront les résultats en augmentant les coûts d’administration, en diminuant la qualité et la quantité de la réalisation des cas d’utilisation et en augmentant l’exposition aux risques.
Faites-nous savoir comment nous pouvons vous aider d’un point de vue stratégique et de mise en œuvre.
Source link