Fermer

février 10, 2020

2.5 Types d'outils modernes d'intégration de données


Alors que nous entrons dans l'ère de l'architecture de données cloud moderne, les entreprises déploient 2 classes principales d'outils d'intégration de données pour gérer les cas d'utilisation traditionnels ETL et ELT.

Le premier type d'outil d'intégration de données est les solutions d'intégration de données basées sur une interface graphique.

Talend, Infosphere Datastage, Informatica et Matillion en sont de bons exemples. Ces outils exploitent une interface utilisateur pour configurer un moteur d'intégration de données ou compiler du code pour l'intégration de données. Les outils d'intégration GUI promettent des interfaces utilisateur rapides et conviviales pour créer rapidement de nouveaux pipelines de données. En outre, les outils d'intégration de données basés sur une interface graphique ont fait leurs preuves dans l'augmentation de la productivité des développeurs. Ils conviennent aux organisations qui ont:

  1. De nombreux pipelines d'intégration de données à gérer.
  2. Des exigences MDM complexes et des règles métier qui doivent s'intégrer dans des pipelines de données.
  3. Un écosystème de bases de données relationnelles omniprésent.
  4. Exigences de déplacement données vers et depuis les plates-formes cloud (par exemple AWS, Azure, GCP)

Le deuxième type d'intégration de données est les solutions d'intégration de données basées sur des scripts / codes.

L'intégration de données basées sur des scripts / codes exploite de nombreux outils pour développer un pipeline de données. Cette capacité nécessite généralement:

  1. Un langage de programmation comme Python ou Scala
  2. Un cadre de traitement de données tel que Spark
  3. Un outil d'orchestration similaire à Apache Airflow.

Le code / les scripts sont construits en sommets ou nœuds à l'aide d'un langage de programmation et framework. Ces sommets sont ensuite structurés en graphiques acycliques dirigés (DAG) par l'outil d'orchestration. Les DAG peuvent évoluer pour gérer de très gros pipelines de données (pensez à 10 s de téraoctets par jour). Les DAG sont également extrêmement utiles pour gérer un traitement personnalisé ou complexe que l'on verrait dans les cas d'utilisation de l'intelligence artificielle ou de l'apprentissage automatique.

The 0.5: Cloud Native

Lorsque je socialisais initialement les deux types d'idée de blog Cloud ETL, un homologue a demandé: «Qu'en est-il du cloud natif?» Bonne question! Les options natives du cloud ne sont que des versions des deux types d'intégration de données. Par exemple, AWS Glue et Google DataProc ont des interfaces utilisateur qui génèrent du code (par exemple Python et Scala). Contrairement à leurs homologues hérités avec une fonctionnalité d'interface utilisateur riche, ces outils natifs du cloud nécessitent toujours la modification du code généré (généralement Python ou Scala). Les outils natifs du cloud rattrapent rapidement leur retard, mais ils doivent encore ajouter des fonctionnalités importantes à leurs interfaces utilisateur pour pouvoir obtenir les mêmes gains de productivité que les solutions traditionnelles basées sur une interface graphique.




Source link