Fermer

mars 19, 2025

Mieux ensemble / blogs / perficient

Mieux ensemble / blogs / perficient


Plates-formes de données modernes comme Databricks Permettre aux organisations de traiter des volumes massifs de données par lots et en streaming, mais la mise à l’échelle nécessite de manière fiable plus que de calculer la puissance. Ça demande observabilité des données: La capacité de surveiller, valider et tracer les données tout au long de son cycle de vie.

Ce blog compare deux outils puissants –Tables delta en direct et Grandes attentes– qui donne vie à l’observabilité de manière différente mais complémentaire. Delta Live Tables (DLTS) Fournir Application et lignée intégrées Dans les pipelines Databricks, tandis que de grandes attentes (GX) offrent Validation profonde et détection d’anomalies.

D’après mon expérience, Les tables en direct de Delta et les grandes attentes sont mieux ensemble. Ensemble, ils forment une pile d’observabilité robuste, permettant aux équipes de livrer des pipelines de données de qualité de production fiables à travers des flux de travail par lots et en streaming.

  • Utiliser Tables delta en direct Pour automatiser les pipelines, appliquer les règles et suivre la lignée nativement dans les données de données.
  • Utiliser Grandes attentes Pour une validation approfondie, une détection d’anomalies et un profilage de schéma.

Je ne suis pas fan de prendre les deux côtés d’un argument. Examinons nos responsabilités de base en tant qu’ingénieurs de données à partir de zéro et suivons les solutions où les exigences nous mènent.

Actif de données

UN actif de données est un géré, précieux ensemble de données. UN ensemble de données précieux n’est pas seulement les données – c’est Données avec objectif, investi dans les processus et les contrôles, et justifié par la valeur commerciale fournie. UN ensemble de données géré est activement gouverné, surveillé et maintenu Pour s’assurer qu’il livre valeur soutenue aux parties prenantes.

Gestion des actifs de données

Fondamentalement, un actif de données est considéré géré lorsqu’il est sous gouvernance. Une bonne gouvernance des données, comme Ensembles de données gérés par le catalogue Unitya au moins ces caractéristiques fondamentales.

Propriété et intendanceQui est responsable du maintien de l’actif de données? Qui peut répondre aux questions à ce sujet?
Contrôle d’accèsQui peut lire, écrire ou modifier ces données? Les autorisations sont-elles alignées sur les rôles et les règles?
LignéeD’où vient ces données? Quelles transformations cela a-t-il traversé?
Conformité et confidentialitéLes données sensibles (par exemple, PII, PHI) sont-elles traitées? Les politiques de rétention et de masquage sont-elles appliquées?
AuditabilitéPouvons-nous tracer qui a accédé ou modifié les données et quand?

Le catalogue d’unité est la fondation pour une maison de lake bien gérée. J’ai écrit sur Migration vers un catalogue d’unité et a mis en évidence certains fonctionnalités bonus. Si vous n’avez pas encore migré, je vous recommande de commencer immédiatement, puis de vous concentrer sur la valeur des données.

Évaluation des actifs de données

L’entreprise communiquera la valeur d’un actif de données principalement par le biais d’un Accord de niveau de service (SLA). Le SLA définit attentes convenues autour fiabilité, performanceet qualité.

Fiabilité décrit le élasticité, fraîcheur, et correction d’un Asset de données.

  • Frais de fraîcheur (vivacité) – à quel point les données sont à jour.
  • Précision (exactitude) – La façon dont les données s’alignent sur les valeurs attendues ou les règles commerciales.
  • Disponibilité (résilience) – À quel point le pipeline de données est robuste pour les échecs et la récupération.

Performance Décrit l’efficacité des données de l’ingestion au traitement à la consommation.

  • Latence – Temps pris pour que les données se déplacent de la source à la consommation (par exemple, délai d’ingestion à Dashboard).
  • Déborder – Volume de données traitées dans le temps (par exemple, lignes / sec, MB / min).
  • Réactivité – À quelle vitesse les requêtes et les pipelines réagissent sous charge ou simultanément.

Qualité Décrit la mesure dans laquelle les données répondent aux règles, attentes et normes définies.

  • Complétude – Toutes les données requises sont présentes (par exemple, pas de lignes ni de champs manquants).
  • Validité – Les données sont conformes aux formats, gammes ou types définis.
  • Cohérence – Les données sont uniformes entre les systèmes et le temps (par exemple, pas de valeurs contradictoires).
  • Unicité – Il n’y a pas de doublons involontaires.
  • Précision – même définition que dans la fiabilité; Il est assez important d’être répertorié deux fois!

Ces attentes commerciales sont satisfaites par l’informatique Personnes, processus et technologie.

Pour un prix.

Entretenir des actifs de données

Objectifs au niveau du service (SLOS) représenter les domaines d’opérations dans les SLA et peut être progressivement rencontré. Ce concept aidera à aligner les coûts de valeur dans le cadre de votre budget. Les cadrans à régler ici sont le Lifecycle Development Software (SDLC) et le Architecture du médaillon de données. Les SLA définissent les engagements pour la fiabilité, les performances et la qualité, et les SLO appliquent ces engagements tout au long du cycle de vie des données. Chaque couche renforce un ou plusieurs de ces domaines dans l’architecture du médaillon. À travers le SDLC, les équipes informatiques valident et appliquent progressivement ces garanties pour garantir des actifs de données de qualité de production.

Le espace de travail est l’environnement principal pour travailler avec les actifs de données dans le catalogue Unity. La valeur est généralement proportionnelle dans les couches de gauche à droite.

Domaine SLADevTestFaire un coup de pouce
FiabilitéSurveiller la connectivité source et les déclencheurs du pipelineValider la planification des pipelines, RetriesLes SLA assurent la livraison à temps pour les consommateurs
PerformanceBenchmarks de performance de baseTest de chargement, profilageOptimiser pour les SLA: latence de requête, vitesse de livraison des données
QualitéCréer des suites de test GE / DQXAppliquer des chèques avec des alertesBloquer les règles et alerter les échecs de qualité
  • Dans Devtoi prototype et mesure Contre la fiabilité et les objectifs de performance.
  • Dans Testtoi Simuler la charge de production et valider SLA SHRESHOLDS.
  • Dans Faire un coup de poucetoi appliquer les SLA et alerte sur les violations avec surveillance et correction automatisées (GE, DQX, flux d’air, audits du catalogue d’unité, etc.).

Le catalogue est la principale unité d’isolement des données dans le modèle de gouvernance des données de données. La valeur est généralement proportionnelle dans les couches de droite à gauche.

Domaine SLABronze (brut)Argent (nettoyé)Or (organisé)
FiabilitéLes données atterrissent à temps; L’intégrité de la source brute est surveilléeLes travaux DLT fonctionnent régulièrement; L’évolution du schéma est géréeLivraison en temps opportun des données critiques d’entreprise
PerformanceIngérer les processus optimisés pour la manipulation de la chargeLes transformations sont interprétées; Pas d’étranglementLes tableaux de bord et les requêtes se chargent rapidement
QualitéProfil de base du profilage et vérification des règles sourceRègles DQ (par exemple, vérifications nulles, contraintes) appliquésLes ensembles de données Golden répondent aux attentes commerciales pour la qualité des données
  • Dans Bronzevous vous concentrez sur fiabilité et qualité de base.
  • Dans Argentvous commencez à souligner qualité et commencer à optimiser performance.
  • Dans Orvous implémentez haute fiabilité, Performances optimiséeset qualité forte

Les données deviennent un véritable atout au fur et à mesure de leur progression à travers ces couches, ce qui accumule la valeur tout en encourant des coûts pour répondre aux attentes croissantes du SLA.

Tables en direct delta et grandes attentes

Nous sommes de retour à l’endroit où nous avons commencé, avec un peu plus de contexte. De grandes attentes (GX) se concentrent sur Validation et profilage des donnéestandis que Delta Live Tables (DLT) Application du schéma et transformations. Bien que les DLT puissent ne pas avoir des capacités de règles et de profilage sophistiquées, leur catalogue d’intégration native à Unity permet à ses caractéristiques de performance de similaires à la fois dans le lot et le streaming, tandis que GX peut lutter avec le streaming du point de vue des performances.

L’exercice de définir La progression de la valeur à travers le SDLC et l’architecture des médaillons versent désormais des dividendes. Les DLT se distinguent pour la gestion des données de bout en bout avec Gestion automatique de la lignée et Évolution du schéma. De grandes attentes peuvent ensuite être exécutées comme un processus distinct pour des vérifications de qualité de données plus avancées et profilage. Cela pourrait être incorporé dans le cadre d’un processus CI / CD plus avancé ou simplement géré manuellement.

La clé est de ne pas se concentrer sur un outil isolément avec l’idée de choisir un gagnant. Je crois que la plupart des développeurs pourraient devenir transformés sur les deux technologies. Aucun des deux ne devrait être en dehors du champ d’application d’un ingénieur de données junior. Les gens ne sont pas un problème. Je souhaite que les DLT soient intégrés à de grandes attentes, donc je n’avais pas besoin d’avoir deux technologies, mais un petit processus contribue grandement à résoudre ce problème technologique.

Conclusion

Intégration Tables delta en direct et Grandes attentes dans Lifecycle Development Software (SDLC) et le Architecture médaillon aide les équipes à réduire les coûts opérationnels tout en fournissant en permanence la valeur commerciale.

  • La validation précoce réduit les retouches: L’intégration des attentes GX dans les environnements de développement et de mise en scène permet une détection précoce du schéma et des problèmes de données, minimisant le retraitement coûteux et les temps d’arrêt de la production.
  • DLTS automatiser l’efficacité opérationnelle: Avec des pipelines déclaratifs et une surveillance intégrée, les DLT réduisent l’orchestration manuelle et le dépannage, l’économie d’heures d’ingénierie et les coûts de calcul.
  • Livraison de valeur incrémentale: En combinant la validation détaillée de GX dans les couches en bronze et en argent avec la lignée et l’application gérées de DLT, les équipes peuvent publier de manière progressive des données de haute qualité – disant des ensembles de données de confiance aux parties prenantes plus rapidement.
  • Observabilité alignée sur Finops: La surveillance du volume, de la fraîcheur et des anomalies avec GX et DLT permet une meilleure attribution et priorisation des coûts, permettant aux équipes de données d’optimiser la qualité et le budget.

Cette approche hybride prend en charge des pratiques d’ingénierie des données robustes et autorise les organisations à en toute confianceoptimiser leur dépenses en nuageet maximiser le Retour sur les investissements des données.

Contactez-nous Pour en savoir plus sur la façon d’autonomiser vos équipes avec les bons outils, les processus et la formation pour débloquer le plein potentiel de Databricks consciemment.






Source link