Fermer

mars 27, 2025

Identifier et corriger les risques de conformité / blogs / perficient

Identifier et corriger les risques de conformité / blogs / perficient


Vecteurs de suppression sera activé par défaut dans Tables delta en direct (Dlts) pour vues matérialisées et tables de streaming À partir du 28 avril 2025. Optimisation prédictive pour la maintenance DLT sera également activée par défaut. Cela pourrait fournir à la fois des économies de coûts et des améliorations des performances. Notre pratique de données est valable Finopes En tant que principe architectural de base, mais parfois la conformité remplace les économies de coûts.

Les vecteurs de délétion sont une fonction d’optimisation de stockage qui remplace la suppression physique par la suppression douce. L’ensemble sous-jacent Parquet Le fichier est immuable par conception et doit être réécrit lorsqu’un enregistrement est physiquement supprimé. Avec une suppression douce, les vecteurs de suppression sont marqués plutôt que physiquement supprimés, ce qui est une augmentation des performances. Il y a une prise une fois que nous considérons la suppression des données dans le contexte de la conformité réglementaire.

Règlements sur la confidentialité des données telles que RGPD, Hipaaet CCPA Imposer des exigences strictes aux organisations de traitement Informations personnellement identifiables (Pii) et Informations de santé protégées (Phi). Assurer la suppression conforme des données est un défi essentiel pour les équipes d’ingénierie des données, en particulier dans des industries comme les soins de santé, la finance et le gouvernement. Cependant; Dans les industries réglementées, leur implémentation par défaut peut introduire des risques de conformité qui doivent être traités.

Que sont les vecteurs de suppression?

Les vecteurs de délétion dans les tables en direct delta offrent un moyen efficace et évolutif de gérer la suppression des enregistrements sans nécessiter de réécritures de fichiers coûteuses. La suppression physique des lignes peut entraîner une dégradation des performances en raison des réécritures de fichiers et des opérations de métadonnées. Au lieu de supprimer physiquement les données, un vecteur de délétion marque les enregistrements supprimés sur la couche de stockage. Ces vecteurs garantissent que les enregistrements supprimés sont exclus des résultats de la requête tandis que l’optimisation prédictive améliore les performances de stockage en déterminant le temps le plus rentable pour s’exécuter. Il n’y a aucun moyen d’aligner cette procédure automatisée sur les politiques de rétention organisationnelle. Cela peut exposer votre organisation au risque de conformité réglementaire.

Risques de conformité et problèmes potentiels

Bien que les vecteurs de suppression améliorent les performances, ils présentent des défis potentiels pour les entreprises réglementées:

  • Défaut de répondre aux exigences du RGPD «droit à oublier»: Mandats du RGPD que les données personnelles soient entièrement effacées sur demande. Si les données ne sont cachées que via des vecteurs de suppression et non en permanence du stockage, les organisations peuvent faire face à des violations de conformité.
  • Conflit avec les politiques de suppression interne: Entreprises ayant des politiques internes strictes nécessitant Suppression irréversible Peut trouver des vecteurs de suppression inadéquats car ils ne suppriment pas physiquement les données.
  • Risque de récupération des données: Étant donné que les vecteurs de suppression fonctionnent en marquant les enregistrements comme supprimés plutôt que de les effacer, il est possible que les systèmes de sauvegarde, la rétention des journaux ou les outils médico-légaux puissent restaurer des données qui auraient dû être supprimées en permanence.
  • Conformité de résidence de données croisées: Les entreprises opérant dans plusieurs juridictions avec des lois strictes sur la localisation des données doivent garantir que les données supprimées ne sont pas conservées dans des emplacements non conformes.
  • Manque de transparence dans les audits: Si la suppression est gérée via des métadonnées au lieu de la suppression physique, les auditeurs peuvent nécessiter une preuve supplémentaire que les données sont permanentes inaccessibles.
  • Impact des optimisations prédictives: Databricks utilise des optimisations prédictives qui peuvent conserver des enregistrements supprimés plus longtemps que prévu pour des raisons de performance, créant des défis supplémentaires dans l’application des suppressions dures.

RÉMÉDIATION DES PROBLÈMES DE CONFORMATION AVEC LES VECTORS DE DÉPLATION

Les organisations qui nécessitent une conformité stricte devraient mettre en œuvre les mesures suivantes pour appliquer les suppressions durs si nécessaire:

1 et 1 Forcer les suppressions dures si nécessaire

Pour s’assurer que les enregistrements sont supprimés en permanence plutôt que simplement cachés:

  • Courir DELETE opérations suivis de OPTIMIZE BY pour forcer le compactage des données et les réécritures de fichiers.
  • Utiliser VACUUM avec une courte période de rétention pour supprimer définitivement les données supprimées.
  • Réécrire périodiquement les tableaux en utilisant REORG TABLE … APPLY (PURGE) pour exclure physiquement les enregistrements supprimés en douceur.

2 Suivi et gestion de la suppression via un catalogue Unity

Le catalogue Unity peut aider à appliquer la conformité par:

  • En utilisant Tagage de table et de colonne pour signaler les données PII, PHI ou sensibles.
  • Création Contrôles d’accès basés sur les stratégies pour gérer les workflows de suppression.
  • Événements de suppression de journalisation pour l’audit et les rapports réglementaires.
  • Identification des risques de rétention d’optimisation prédictive: Les optimisations prédictives dans les données de données peuvent retarder la suppression des données pour l’efficacité, nécessitant des remplacements axés sur les politiques pour garantir la conformité.

3 et 3 Surveillance de l’état de suppression via des tables système

Databricks fournit Tables système et schéma d’information qui peut être exploité pour la surveillance de la conformité:

  • delta.deleted_files: Suit les fichiers supprimés et les modifications de métadonnées.
  • delta.table_history: Maintient un enregistrement de toutes les opérations effectuées sur la table, permettant aux auditeurs de vérifier les processus de suppression.
  • Afficher la table de création: Aide à confirmer si un tableau utilise des vecteurs de suppression ou nécessite une stratégie de suppression différente.
  • Informations sur l’optimisation prédictive: Les tables système peuvent fournir une visibilité dans les retards d’optimisation affectant l’exécution de suppression dure.

Conclusion

Les vecteurs de délétion dans les tableaux de Delta Live fournissent une approche moderne de la suppression des données, répondant à la fois sur les performances et les problèmes de conformité pour les industries réglementées. Cependant, leur comportement de suppression douce par défaut peut ne pas s’aligner sur les réglementations strictes de confidentialité des données ou les politiques de suppression interne. Les entreprises doivent mettre en œuvre des garanties supplémentaires telles que flux de travail de suppression physique, étiquetage du catalogue d’unité et surveillance du tableau du système pour assurer la pleine conformité.

En tant que Le partenaire d’Elite Databricknous sommes ici pour aider les organisations opérant en vertu des lois rigoureuses de confidentialité des données à obtenir une compréhension claire des limites des vecteurs de suppression – ainsi que des stratégies de correction proactive – pour garantir que leurs pratiques de suppression de données répondent aux exigences légales et de gouvernance interne.

Contactez-nous Pour explorer comment nous pouvons intégrer ces nouvelles capacités de databricks à évolution rapide dans vos solutions d’entreprise et générer un impact sur les affaires réel.






Source link