juillet 11, 2022

Top 5 des points à retenir de Databricks Data – AI Summit 2022

Le Data and AI Summit 2022 a fait d’énormes annonces pour la plateforme Databricks Lakehouse. Parmi ceux-ci, il y avait plusieurs améliorations exaltantes à Flux de travail Databricksle service d’orchestration entièrement géré qui est profondément intégré à la plate-forme Databricks Lakehouse et Tableaux Delta Live aussi. Avec ces nouvelles efficacités, Flux de travail permet aux ingénieurs de données, aux data scientists et aux analystes de créer des flux de données, d’analyse et de ML fiables sur n’importe quel cloud sans avoir à gérer une infrastructure complexe.

Voici les 5 annonces passionnantes et les plus importantes pour le même –

1. Créez des pipelines de données de production et de ML fiables avec le support de Git :
Nous utilisons Git pour contrôler la version de tout notre code. Avec la prise en charge de Git dans les flux de travail Databricks, vous pouvez utiliser une référence Git distante comme source pour les tâches qui composent un flux de travail Databricks. Cela élimine le risque de modifications accidentelles du code de production, supprime les frais généraux liés au maintien d’une copie de production du code dans Databricks et à sa mise à jour, et améliore la reproductibilité car chaque exécution de tâche est liée à un hachage de validation. La prise en charge de Git pour les workflows est disponible en version préliminaire publique et fonctionne avec un large éventail de fournisseurs Git pris en charge par Databricks, notamment GitHub, Gitlab, Bitbucket, Azure DevOps et AWS CodeCommit.
1. Orchestrez encore plus la maison du lac avec des tâches SQL :
Les pipelines de données et de ML du monde réel consistent en de nombreux types de tâches différents travaillant ensemble. Avec l’ajout du type de tâche SQL dans les travaux, vous pouvez désormais orchestrer encore plus de Lakehouse. Par exemple, nous pouvons déclencher un bloc-notes pour ingérer des données, exécuter un pipeline Delta Live Table pour transformer les données, puis utiliser le Type de tâche SQL pour planifier une requête et actualiser un tableau de bord.
1. Gagnez du temps et de l’argent sur les workflows de données et de ML avec « Réparer et réexécuter »:
Pour prendre en charge les cas d’utilisation réels des données et de l’apprentissage automatique, les organisations créent des flux de travail sophistiqués avec de nombreuses tâches et dépendances, allant de l’ingestion de données et de l’ETL à la formation et à la diffusion de modèles ML. Chacune de ces tâches doit être accomplie dans le bon ordre. Cependant, lorsqu’une tâche importante dans un workflow échoue, cela affecte toutes les tâches en aval. Le nouveau « Réparer et réexécuter» dans Jobs résout ce problème en vous permettant d’exécuter uniquement les tâches ayant échoué, ce qui vous fait gagner du temps et de l’argent.
1. Partagez facilement le contexte entre les tâches :
Une tâche peut parfois être dépendante des résultats d’une tâche en amont. Auparavant, pour accéder aux données d’une tâche en amont, il était nécessaire de les stocker ailleurs que dans le contexte de la tâche, comme une table Delta. L’API Task Values permet désormais aux tâches de définir des valeurs pouvant être récupérées par des tâches ultérieures. Pour faciliter le débogage, l’interface utilisateur des travaux affiche les valeurs spécifiées par les tâches.
1. Delta Live Tables annonce de nouvelles fonctionnalités et optimisations des performances :
DLT annonce qu’il développe Enzyme, une optimisation des performances spécialement conçue pour les charges de travail ETL, et lance plusieurs nouvelles fonctionnalités, notamment l’autoscaling amélioré. DLT permet aux analystes et aux ingénieurs de données de créer rapidement des pipelines ETL de streaming ou batch prêts pour la production en SQL et Python. DLT simplifie le développement ETL en vous permettant de définir votre pipeline de traitement de données de manière déclarative. DLT comprend les dépendances de votre pipeline et automatise presque toutes les complexités opérationnelles.
- Améliorations de l’expérience utilisateur – Interface utilisateur étendue pour faciliter la gestion des pipelines DLT, afficher les erreurs et fournir un accès aux membres de l’équipe avec des ACL de pipeline riches. En outre, une interface utilisateur d’observabilité pour afficher les métriques de qualité des données dans une seule vue et faciliter la planification des pipelines directement à partir de l’interface utilisateur est ajoutée.
- Bouton Planifier le pipeline – DLT vous permet d’exécuter des pipelines ETL en continu ou en mode déclenché. Les pipelines continus traitent les nouvelles données à mesure qu’elles arrivent et sont utiles dans les scénarios où la latence des données est critique. Cependant, de nombreux clients choisissent d’exécuter les pipelines DLT en mode déclenché pour contrôler plus étroitement l’exécution et les coûts du pipeline. Pour faciliter le déclenchement de pipelines DLT selon un calendrier récurrent avec Databricks Jobs, un ‘Programme‘ bouton est ajouté dans l’interface utilisateur DLT pour permettre aux utilisateurs de configurer un calendrier récurrent en quelques clics seulement sans quitter l’interface utilisateur DLT.
- Modification de la capture de données (CDC) –Avec DLT, les ingénieurs de données peuvent facilement implémenter CDC avec un nouveau déclaratif APPLIQUER LES MODIFICATIONS DANS L’API, en SQL ou en Python. Cette nouvelle fonctionnalité permet aux pipelines ETL de détecter facilement les modifications des données source et de les appliquer aux ensembles de données dans toute la maison du lac. DLT traite les modifications de données dans le Delta Lake de manière incrémentielle, en signalant les enregistrements à insérer, mettre à jour ou supprimer lors de la gestion des événements CDC.
- CDC Dimensions à évolution lente (Type 2) –Lorsque nous traitons des données changeantes (CDC), nous devons souvent mettre à jour les enregistrements pour garder une trace des données les plus récentes. SCD Type 2 est un moyen d’appliquer des mises à jour à une cible afin que les données d’origine soient préservées. Par exemple, si une entité utilisateur dans la base de données change ses numéros de téléphone, nous pouvons stocker tous les numéros de téléphone précédents pour cet utilisateur. DLT prend en charge le SCD de type 2 pour les organisations qui ont besoin de conserver une piste d’audit des modifications. SCD2 conserve un historique complet des valeurs. Lorsque la valeur d’un attribut change, l’enregistrement en cours est fermé, un nouvel enregistrement est créé avec les valeurs de données modifiées et ce nouvel enregistrement devient l’enregistrement en cours.
- Autoscaling amélioré (préversion) –Le dimensionnement manuel des clusters pour des performances optimales compte tenu des volumes de données changeants et imprévisibles, comme avec les charges de travail en streaming, peut être difficile et entraîner un surprovisionnement. DLT utilise un algorithme de mise à l’échelle automatique amélioré spécialement conçu pour le streaming. La mise à l’échelle automatique améliorée des DLT optimise l’utilisation du cluster tout en garantissant que la latence globale de bout en bout est réduite au minimum. Pour ce faire, il détecte les fluctuations des charges de travail de streaming, y compris les données en attente d’ingestion, et provisionne le bon nombre de ressources nécessaires (jusqu’à une limite spécifiée par l’utilisateur). De plus, Enhanced Autoscaling arrête les clusters en douceur lorsque l’utilisation est faible tout en garantissant l’évacuation de toutes les tâches pour éviter d’impacter le pipeline. Par conséquent, les charges de travail utilisant l’autoscaling amélioré permettent de réduire les coûts, car moins de ressources d’infrastructure sont utilisées.
- Canaux de mise à niveau et de publication automatisés –Les clusters Delta Live Tables (DLT) utilisent un runtime DLT basé sur le runtime Databricks (DBR). Databricks met automatiquement à niveau le runtime DLT environ tous les 1 à 2 mois. DLT mettra automatiquement à niveau le runtime DLT sans nécessiter l’intervention de l’utilisateur final et surveillera l’état du pipeline après la mise à niveau.
- Annonce d’Enzyme, une nouvelle couche d’optimisation conçue spécifiquement pour accélérer le processus de réalisation d’ETL – La transformation des données pour les préparer à l’analyse en aval est une condition préalable pour la plupart des autres charges de travail sur la plate-forme Databricks. Alors que les cadres SQL et Data permettent aux utilisateurs d’exprimer relativement facilement leurs transformations, les données d’entrée changent constamment. Cela nécessite de recalculer les tables produites par ETL. Enzyme est une nouvelle couche d’optimisation pour ETL. Enzyme tient efficacement à jour une matérialisation des résultats d’une requête donnée stockée dans une table Delta. Il utilise un modèle de coût pour choisir entre diverses techniques, y compris les techniques utilisées dans les vues matérialisées traditionnelles, le streaming delta-to-delta et les modèles ETL manuels couramment utilisés par les ingénieurs de données.
En savoir plus sur –
https://databricks.com/blog/2022/06/29/top-5-workflows-announcements-at-data-ai-summit.html
Nouvelles fonctionnalités de Delta Live Tables et optimisations des performances – Le blog Databricks

Blog ARC Optimizer

juillet 11, 2022

Top 5 des points à retenir de Databricks Data – AI Summit 2022

Articles similaires

Blog ARC Optimizer

Partager :

Articles similaires