Fermer

août 23, 2022

Maximiser les avantages de Data Lake avec Denodo

Maximiser les avantages de Data Lake avec Denodo


Lac de données :

Data Lake est un référentiel centralisé qui contient une grande quantité de données dans des formats natifs et bruts. Le lac de données dispose de systèmes de fichiers distribués qui fournissent un stockage bon marché de gros volumes de données. Il prend en charge différents formats de fichiers tels que Parquet, CSV, JSON, etc. Il prend en charge des moteurs d’exécution parallèles massifs qui ne nécessitent pas de matériel spécial et ces moteurs sont complètement séparés du stockage. Il offre une exécution moins chère par rapport à l’entrepôt de données.

Dans Data Lake, les données sont ingérées au format brut et se déplacent vers différentes zones telles que la zone brute, la zone exploratoire, la zone de confiance et la zone raffinée avant d’être consommées par l’utilisateur final. Les Utilisateurs Finaux n’ont accès qu’à la zone affinée. Il utilise ELT au lieu d’ETL, ce qui élimine le besoin d’échelonner les données. Data Lake est préféré car nous pouvons mettre toutes les données en un seul endroit et l’utiliser comme une plate-forme optimale pour tous les besoins analytiques.

Data Lakes a une architecture très complexe. L’extraction des données à partir de diverses sources de données nécessite des transformations complexes. Les mouvements de données volumineuses sont trop lents et la copie de certaines sources telles que les données Mainframe sera très complexe. La lignée des données pour décrire les données n’est pas disponible. L’actualisation et la gestion du lac de données ajoutent également de la complexité.

Virtualisation des données :

Lac de données

Pour maximiser les avantages de Data Lake, nous pouvons utiliser Denodo pour mettre en œuvre la virtualisation des données. Un lac de données unique, logique et polyvalent peut être mis en œuvre à l’aide de la virtualisation des données. Dans Data Lake, la virtualisation des données peut être utilisée pour la collecte de données, l’intégration de données, l’abstraction de données et la livraison de données.

Les données peuvent être extraites vers une couche virtuelle commune à partir de sources hétérogènes sans copier ni migrer le code. L’application consommatrice nécessite différents styles et protocoles de livraison de données pour lesquels le référentiel du lac de données n’est pas suffisant pour le faire. La virtualisation des données agit comme une couche de livraison de données unique pour le lac de données. La virtualisation des données fait abstraction de la complexité des sources sous-jacentes de l’application consommatrice. Denodo peut également s’intégrer à différents moteurs de lac de données comme Hive, Impala, Presto et Athena grâce auxquels nous pouvons accéder et traiter les données à l’intérieur des systèmes de fichiers du lac de données. La virtualisation des données améliore la gouvernance, la sécurité, la gestion des métadonnées et l’infrastructure pour la mise en œuvre du lac de données. Il maximise la puissance de traitement des clusters de lacs de données à l’aide de l’optimiseur de Denodo. Il permet de combiner les données en temps réel de la source de données d’origine avec les données historiques des clusters. La virtualisation des données permet d’exposer les données du lac de données aux utilisateurs, comme des ensembles de données organisés pour les utilisateurs professionnels et des bacs à sable virtuels pour les utilisateurs expérimentés. La virtualisation des données n’est pas seulement mise en œuvre en tant que couche d’accès aux données ou couche de service, mais c’est un élément clé du lac de données.






Source link