Performance a un État d’esprit Finops avec Databricksdonc le Clustering liquide automatique L’annonce a attiré mon attention.
J’ai mentionné le regroupement liquide avant Lorsque vous discutez des avantages du catalogue d’unité au-delà des cas d’utilisation de la gouvernance. Catalogue d’unité: venez pour le gouvernance des donnéesrestez pour le optimisation prédictive. Je suis généralement fan de pouvoir régler les cadrans de databricks. Dans ce cas, le clustering liquide aborde les aspects de gestion des données et d’optimisation des requêtes du contrôle des coûts Soi simplement et élégamment que je suis heureux de retirer mes mains des commandes.
Réglage manuel: la lutte est réelle
Expérimenté Databricks Data Engineers connaissent partitionnement et saut de données Stratégies pour augmenter les performances et réduire les coûts de leurs charges de travail. Ces sujets sont même dans le examens de certification.
- Le partitionnement consiste à prendre une très grande table (1 To ou plus) et à la décomposer en morceaux de 1 Go plus petits basés sur une ou plusieurs colonnes – mieux pour les colonnes de faible cardinalité.
- Le saut de données utilise des statistiques stockées dans les métadonnées d’une table pour trouver intelligemment les données pertinentes.
- Commandant z Va encore plus loin que le saut de données et coloque des informations similaires dans des colonnes à haute cardinalité dans le même fichier, améliorant l’efficacité des E / S.
Le partitionnement est défini sur la création de table, tandis que les colonnes d’ordre z sont appliquées avec le OPTIMIZE
commande.
Simple en théorie; frustrant dans la pratique.
En toute honnêteté, je pense que la plupart d’entre nous se partagent mal. Dans mon cas, j’avais initialement approché un partitionnement d’un Table de delta comme si c’était un Ruche table ou un Parquet déposer. Cela avait un sens intuitif pour moi comme un début Étincelle Développeur, et moi avions une connaissance approfondie des deux architectures. Pourtant, maintes et maintes fois, je me retrouve à regarder avec nostalgie dans la distance moyenne à travers les cendres d’une autre tentative d’optimisation ratée.
- Les requêtes ont ralenti à mesure que les modèles d’accès ont évolué.
- Les efforts d’optimisation ont produit des avantages incohérents.
- L’ordre z introduit Écrire une amplification et Coût de calcul plus élevécar il n’est pas incrémentiel ou à l’écriture.
Databricks a clairement vu que Le réglage manuel n’a pas évolué. Ils ont donc introduit une meilleure façon.
Graquerie temporelle d’ingestion: un pas dans la bonne direction
Grappe de temps d’ingestion a été introduit pour résoudre les problèmes avec le partitionnement personnalisé et l’ordre Z. Cette approche a été adoptée en fonction de leur supposition que 51% des tables sont partitionnées sur les clés de date / heure. Maintenant, nous avons une solution pour environ la moitié de nos charges de travail, ce qui est génial. Mais qu’en est-il de l’autre moitié?
Clustering liquide: optimisation plus intelligente et plus large
Regroupement liquide Adresse les cas d’utilisation supplémentaires au-delà du partitionnement de date / heure. La lutte contre les limites du partitionnement avec les exigences d’écriture simultanées a été un grand pas en avant dans la fiabilité. Il s’agit également d’une meilleure solution pour gérer les tableaux où les modèles d’accès changent au fil du temps et où les clés potentielles peuvent ne pas entraîner de partitions de bonne taille. Il gère également les tables filtrées par des colonnes de cardinalité élevées comme l’ordre z sans les coûts supplémentaires. Il ajoute la possibilité de gérer des tables avec un biais important ainsi que des tables qui connaissent une croissance rapide. Databricks recommande que le clustering liquide soit activé pour toutes les tables delta, y compris vues matérialisées et tables de streaming. La syntaxe est très simple:
CLUSTER BY (col1)
Semble assez simple: utilisez un clustering liquide partout et identifiez simplement la colonne sur laquelle se cluster. À quel point cela pourrait-il devenir plus simple?
Clustering liquide automatique: prend en charge les databricks finops à grande échelle
Maintenant, nous nous retrouvons à une conclusion logique.
Unity Catalogue collecte des statistiques sur les tables gérées et s’identifie automatiquement lorsque OPTIMIZE
, VACUUM
et ANALYZE
Les opérations de maintenance doivent être exécutées. Les charges de travail historiques pour un tableau géré sont analysées de manière asynchrone comme une opération de maintenance supplémentaire pour informer les candidats aux clés de clustering.
Vous avez peut-être remarqué par la syntaxe (CLUSTER BY (col1)
) Ce clustering liquide est toujours vulnérable à la modification des modèles d’accès invalidant la sélection des clés de partition initiale. Les clés de clustering sont modifiées lorsque les économies de coûts prévues à partir de données sur les données l’emportent sur le coût du regroupement des données.
Autrement dit,
CLUSTER BY AUTO
Réflexions finales: gardez calme et grappes par auto
Les données sont dans un endroit très excitant, mais très dur, en ce moment. L’acceptation dominante de l’entreprise de l’IA / ml signifie que les ingénieurs de données doivent travailler plus dur que jamais pour obtenir de nombreuses données provenant de sources disparates disponibles pour tout de Entrepôts SQL à Ml à Chiffons à solutions agentiquestout en maintenant et en améliorant la sécurité et la gouvernance. Ajouter la pression à la baisse sur les budgets car les coûts des nuages sont perçus comme étant trop haut. Le réglage d’optimisation n’est pas une valeur ajoutée à ce stade.
Gardez calme et grappez par auto.
Vous voulez de l’aide à la mise en œuvre de cela dans votre environnement de données?
Entrer en contact Avec nous, si vous voulez en savoir plus sur la façon dont le regroupement automatique des liquides dans les données de données pourrait vous aider à améliorer les performances et à réduire les coûts.
mars 13, 2025
Comment le clustering liquide automatique prend en charge Databricks Finops à grande échelle / blogs / perficient
Performance a un État d’esprit Finops avec Databricksdonc le Clustering liquide automatique L’annonce a attiré mon attention.
J’ai mentionné le regroupement liquide avant Lorsque vous discutez des avantages du catalogue d’unité au-delà des cas d’utilisation de la gouvernance. Catalogue d’unité: venez pour le gouvernance des donnéesrestez pour le optimisation prédictive. Je suis généralement fan de pouvoir régler les cadrans de databricks. Dans ce cas, le clustering liquide aborde les aspects de gestion des données et d’optimisation des requêtes du contrôle des coûts Soi simplement et élégamment que je suis heureux de retirer mes mains des commandes.
Réglage manuel: la lutte est réelle
Expérimenté Databricks Data Engineers connaissent partitionnement et saut de données Stratégies pour augmenter les performances et réduire les coûts de leurs charges de travail. Ces sujets sont même dans le examens de certification.
Le partitionnement est défini sur la création de table, tandis que les colonnes d’ordre z sont appliquées avec le
OPTIMIZE
commande.Simple en théorie; frustrant dans la pratique.
En toute honnêteté, je pense que la plupart d’entre nous se partagent mal. Dans mon cas, j’avais initialement approché un partitionnement d’un Table de delta comme si c’était un Ruche table ou un Parquet déposer. Cela avait un sens intuitif pour moi comme un début Étincelle Développeur, et moi avions une connaissance approfondie des deux architectures. Pourtant, maintes et maintes fois, je me retrouve à regarder avec nostalgie dans la distance moyenne à travers les cendres d’une autre tentative d’optimisation ratée.
Databricks a clairement vu que Le réglage manuel n’a pas évolué. Ils ont donc introduit une meilleure façon.
Graquerie temporelle d’ingestion: un pas dans la bonne direction
Grappe de temps d’ingestion a été introduit pour résoudre les problèmes avec le partitionnement personnalisé et l’ordre Z. Cette approche a été adoptée en fonction de leur supposition que 51% des tables sont partitionnées sur les clés de date / heure. Maintenant, nous avons une solution pour environ la moitié de nos charges de travail, ce qui est génial. Mais qu’en est-il de l’autre moitié?
Clustering liquide: optimisation plus intelligente et plus large
Regroupement liquide Adresse les cas d’utilisation supplémentaires au-delà du partitionnement de date / heure. La lutte contre les limites du partitionnement avec les exigences d’écriture simultanées a été un grand pas en avant dans la fiabilité. Il s’agit également d’une meilleure solution pour gérer les tableaux où les modèles d’accès changent au fil du temps et où les clés potentielles peuvent ne pas entraîner de partitions de bonne taille. Il gère également les tables filtrées par des colonnes de cardinalité élevées comme l’ordre z sans les coûts supplémentaires. Il ajoute la possibilité de gérer des tables avec un biais important ainsi que des tables qui connaissent une croissance rapide. Databricks recommande que le clustering liquide soit activé pour toutes les tables delta, y compris vues matérialisées et tables de streaming. La syntaxe est très simple:
Semble assez simple: utilisez un clustering liquide partout et identifiez simplement la colonne sur laquelle se cluster. À quel point cela pourrait-il devenir plus simple?
Clustering liquide automatique: prend en charge les databricks finops à grande échelle
Maintenant, nous nous retrouvons à une conclusion logique.
Unity Catalogue collecte des statistiques sur les tables gérées et s’identifie automatiquement lorsque
OPTIMIZE
,VACUUM
etANALYZE
Les opérations de maintenance doivent être exécutées. Les charges de travail historiques pour un tableau géré sont analysées de manière asynchrone comme une opération de maintenance supplémentaire pour informer les candidats aux clés de clustering.Vous avez peut-être remarqué par la syntaxe (
CLUSTER BY (col1)
) Ce clustering liquide est toujours vulnérable à la modification des modèles d’accès invalidant la sélection des clés de partition initiale. Les clés de clustering sont modifiées lorsque les économies de coûts prévues à partir de données sur les données l’emportent sur le coût du regroupement des données.Autrement dit,
Réflexions finales: gardez calme et grappes par auto
Les données sont dans un endroit très excitant, mais très dur, en ce moment. L’acceptation dominante de l’entreprise de l’IA / ml signifie que les ingénieurs de données doivent travailler plus dur que jamais pour obtenir de nombreuses données provenant de sources disparates disponibles pour tout de Entrepôts SQL à Ml à Chiffons à solutions agentiquestout en maintenant et en améliorant la sécurité et la gouvernance. Ajouter la pression à la baisse sur les budgets car les coûts des nuages sont perçus comme étant trop haut. Le réglage d’optimisation n’est pas une valeur ajoutée à ce stade.
Gardez calme et grappez par auto.
Vous voulez de l’aide à la mise en œuvre de cela dans votre environnement de données?
Entrer en contact Avec nous, si vous voulez en savoir plus sur la façon dont le regroupement automatique des liquides dans les données de données pourrait vous aider à améliorer les performances et à réduire les coûts.
Source link
Partager :
Articles similaires