AWS Athena – Blogs performants

Athena est un service de requête interactif proposé par Amazon qui facilite l’examen des données directement dans Amazon S3 à l’aide de SQL standard. Athena est sans serveur, il n’y a donc pas d’infrastructure à gérer et nous ne payons que pour les requêtes que nous exécutons. Athéna est facile à utiliser. Il pointe simplement les données présentes dans S3 et commence à interroger les données à l’aide du SQL standard. La plupart des résultats sont livrés en quelques secondes.
Quand utiliser AWS Athena
Athena est utilisé pour analyser les données présentes dans Amazon S3. Athena peut fonctionner avec différents types de types de données structurées et non structurées, notamment des formats de données tels que CSV (valeurs séparées par des virgules), ORC (Optimized Row Columnar), Apache Parquet et Apache Avro, JSON (JavaScript Object Notation). Vous devez utiliser Athena si vous souhaitez exécuter des requêtes SQL ad hoc interactives pour les données qui se trouvent dans Amazon S3. Athena nous offre le moyen le plus simple d’exécuter des requêtes ad hoc pour les données dans Amazon S3
Nous pouvons exécuter des requêtes interactives directement pour les données présentes dans Amazon S3 sans avoir à formater les données ou à gérer l’infrastructure. Par exemple, Athena est utile si vous souhaitez exécuter une requête rapide sur les journaux du serveur Web pour résoudre un problème auquel notre site Web est confronté.
Flux de travail d’AWS Athena
Athena utilise Presto qui est un moteur de requête distribué et utilisé pour exécuter des requêtes et Apache Hive pour modifier et créer des tables et des partitions. Athena est facturé sur une base de paiement par requête (le prix normal de 5 $ pour 1 To de données dans S3).
Le flux de travail d’Amazon Athena peut être vu ci-dessus. Les données sont chargées dans un compartiment Amazon S3, à partir duquel nous interrogeons les données stockées à l’aide d’Athena.
Avantages d’Athéna
- Sans serveur : Interrogez rapidement les données sans aucune infrastructure configurée
- L’intégration: Intégration avec de nombreux outils, notamment : AWS Glue, Amazon Quick Sight et Key Management Service (KMS).
- Sécurise: Utilise les politiques de compartiment Amazon S3 et les listes de contrôle d’accès, ainsi qu’AWS Identity and Access Management (JE SUIS) politiques pour assurer la sécurité.
- Paiement par requête : Ne payez que pour les requêtes que vous exécutez.
- Rapide: Conçu pour des performances rapides. Effectuez des requêtes côte à côte permettant aux utilisateurs d’obtenir des résultats en quelques secondes.
Comment fonctionne Athéna :
Vous trouverez ci-dessous un exemple d’utilisation d’Athena pour interroger des données dans un compartiment S3.
J’ai les données dans un format de fichier CSV des noms des étudiants et de leurs pourcentages de test.
J’ai déjà téléchargé ces données dans mon compartiment S3.
- Nous devons ouvrir le service Athena à partir de notre tableau de bord AWS. Après avoir ouvert Athena, vous verrez le tableau de bord ci-dessous.
- Maintenant, nous devons sélectionner la base de données. Nous pouvons également créer une base de données en utilisant la requête ci-dessous
- créer la base de données « Nom de la base de données » ;
- J’ai créé une base de données avec le nom « AWS_test”
- Si vous avez déjà créé une base de données, vous pouvez simplement sélectionner votre base de données dans le menu déroulant de la base de données.
- Maintenant, nous devons créer des tables. Vous pouvez créer un tableau en cliquant sur l’onglet Créer.
- Comme vous pouvez le voir, il existe de nombreuses options pour créer la table, mais nous devons utiliser les données S3. Nous allons donc sélectionner les données du compartiment S3.
- Après avoir sélectionné les données du compartiment S3, vous serez redirigé. Ici, nous devons entrer le nom de la table que nous voulons créer. J’ai nommé la table « Test” pour cet exemple.
- Maintenant, nous devons sélectionner la base de données. Nous utilisons la base de données existante que nous avons créée précédemment « AWS_test »
- Vous devrez entrer l’emplacement du fichier qui est stocké dans notre compartiment S3.
- Si vous souhaitez connaître l’emplacement du fichier qui se trouve dans S3. Vous pouvez simplement aller dans le compartiment S3 sur cet emplacement de fichier.
- Sélectionnez les propriétés, vous y trouverez la copie de l’URL S3, comme indiqué ci-dessous, et collez-la à l’emplacement de l’ensemble de données.
- Nous devrons spécifier le type de fichier. Pour EX : CVS, JSON, etc.
- Ensuite, nous nommerons les colonnes. Comme vous pouvez le voir ci-dessus dans mon fichier, il y a 3 colonnes. Si vous avez trop de colonnes dans votre fichier, vous pouvez utiliser la fonctionnalité d’ajout de colonnes en bloc. Où l’on peut ajouter plusieurs colonnes à la fois.
- Nous devons spécifier le nom de la colonne et son type de données comme la valeur dans la colonne est string, int ou float ou etc.
- Maintenant, appuyez sur créer une table et votre table sera créée
- Nous allons maintenant interroger les données qui se trouvent dans le fichier en utilisant le SQL standard.
- Pour exécuter n’importe quelle requête dans Athena, il nous suffit de les écrire dans la case et de sélectionner Exécuter
- J’exécute la requête ci-dessous pour afficher toutes les données qui se trouvent dans le fichier
- sélectionnez * dans Test ;
Comme vous pouvez le voir ci-dessous après avoir exécuté la requête ci-dessus, j’obtiens la sortie de toutes les données qui étaient présentes dans mon fichier
J’ai également exécuté la requête ci-dessous dans laquelle je spécifie un nom particulier d’étudiant et j’obtiens des détails à leur sujet, tels que leur numéro de rôle et leur pourcentage.
sélectionnez * dans Test où nom = ‘Mohit’ ;
Comme vous pouvez le constater, Athena est assez facile à utiliser et simplifie notre flux de travail. Nous n’avons qu’à exécuter la bonne requête pour recevoir les résultats escomptés en quelques secondes !
Source link