Fermer

avril 6, 2018

Utilisation d'AWS Glue et Spark avec MongoDB via le pilote JDBC


Apprenez comment accéder à MongoDB en utilisant un pilote DataDirect JDBC avec AWS Glue

AWS Glue

AWS Glue est un service d'extraction, de transformation, de chargement (ETL) disponible dans les services Web hébergés d'Amazon. Glue est conçu pour permettre aux utilisateurs de connecter facilement leurs données dans divers magasins de données, de les modifier et de les nettoyer au besoin, puis de charger les données dans un magasin approvisionné AWS pour obtenir une vue unifiée. Annoncé en 2016 et officiellement lancé à l'été 2017, Glue simplifie grandement le lourd processus de configuration et de maintenance des travaux ETL

Pourquoi MongoDB?

MongoDB est un magasin de données NoSQL open-source. Plutôt que le format de lignes et de colonnes tabulaires des bases de données relationnelles, MongoDB utilise des documents et des schémas. MongoDB a gagné en popularité et est généralement classé parmi les 5 premiers magasins de données les plus populaires. À Progress, nous avons constaté un intérêt accru pour apprendre à utiliser MongoDB dans un environnement Amazon AWS Glue.

 AWS Glue "title =" AWS Glue "/></p data-recalc-dims=

JDBC et Glue

Glue prend en charge l'accès aux données via JDBC et actuellement les bases de données supportées par Glue via JDBC sont Postgres, MySQL, Redshift et Aurora Bien sûr, des pilotes JDBC existent pour beaucoup d'autres sources de données en plus de ces quatre sources Si vous voulez accéder à n'importe quelle autre base de données avec JDBC Pilotes JDBC via les connexions Spark Les données peuvent ensuite être traitées dans Spark ou jointes à d'autres sources de données, et AWS Glue peut exploiter pleinement les données de Spark.

Les connecteurs JDBC vous permettent d'accéder à de nombreuses autres données sources via Spark pour utilisation dans AWS Glue Par exemple, ce blog AWS illustre l'utilisation d'Amazon Quick Insight for BI par rapport aux données d'un catalogue AWS Glue. Quick Insight prend en charge les magasins de données Amazon et quelques autres sources MySQL et Postgres.

Avec Da taDirect JDBC via Spark, vous pouvez ouvrir n'importe quel outil BI compatible JDBC à l'ensemble des bases de données supportées par les pilotes DataDirect, y compris MongoDB, Salesforce, Oracle et bien d'autres.

Accéder aux données JDBC via Spark avec DataDirect

, comment configurer une connexion JDBC pour accéder aux données via Spark en utilisant un pilote JDBC? Voici un bref aperçu des étapes simples à suivre:

  • Téléchargez et installez localement le pilote DataDirect JDBC puis copiez le fichier jar du pilote sur Amazon Simple Storage Service (S3). Les pilotes disposent d'une période d'essai gratuite de 15 jours, ce qui vous permet de les installer et de les tester dans votre environnement.
  • Créez votre Amazon Glue Job dans AWS Glue Console. 19659014] Suivez notre tutoriel détaillé pour un exemple en utilisant le pilote DataDirect Salesforce. Les mêmes étapes s'appliqueront à MongoDB ou à tout autre pilote DataDirect JDBC

Premiers pas avec DataDirect JDBC et AWS Glue

Norme du secteur pour la connectivité de base de données JDBC, les pilotes JDBC Progress DataDirect résolvent les limitations des pilotes JDBC de type 4, fournir les performances de l'application Java les plus rapides et les plus évolutives. La gamme de pilotes JDBC DataDirect prend en charge toutes les principales bases de données et inclut des fonctionnalités d'entreprise avancées telles que le basculement d'applications, le chargement en bloc, le cryptage des données SSL et l'authentification du système d'exploitation à l'aide du protocole Kerberos. DataDirect publie également une stratégie de réponse de vulnérabilité de sécurité pour traiter toutes les bases de données en temps opportun, y compris SaaS, big data et sources relationnelles.

Téléchargez aujourd'hui un pilote DataDirect JDBC et commencez avec AWS Glue. ] Commencer mon essai




Source link