Gestion des données sur le cloud à l'aide d'AWS

L'histoire des données peut être divisée en deux époques : pré-big data et post-big data.
À l'ère pré-big data, les données étaient principalement structurées et échangées entre les entreprises par le biais de mécanismes standard tels que le réseau de transfert de données (NDM). Le besoin d'informations en temps quasi réel était limité, et l'extraction et la transformation des données étaient orientées par lots et planifiées pendant les heures creuses pour réduire l'utilisation du MIPS (millions d'instructions par seconde) et la perturbation des transactions de production en ligne.
De plus, les formats de données étaient limités, le format le plus courant étant les fichiers plats délimités avec des en-têtes et des bandes-annonces. Les en-têtes et les queues stockaient des informations importantes telles que l'heure d'arrivée des données, les informations sur le producteur de données et le nombre d'enregistrements dans le fichier.
De plus, les systèmes de gestion de bases de données relationnelles (RDBM) – tels que DB2, les bases de données hiérarchiques telles que IMSDB, les fichiers plats et la logique d'extraction, de transformation, de chargement (ETL) personnalisée dans COBOL ou PL/I – étaient suffisants pour gérer l'ingestion, l'analyse et la gestion des données. stockage. Comme les sources de génération de données étaient limitées, il était plus facile de gérer le volume de données.
Alors que nous entrions dans l'ère du Big Data, les entreprises attendaient plus de valeur des données, car les progrès technologiques offraient la capacité de collecter, stocker et analyser une croissance exponentielle des volumes et de la variété des données. Avec la possibilité d'extraire plus (et en temps opportun) d'informations commerciales que jamais auparavant, les données sont devenues un avantage concurrentiel pour les entreprises qui peuvent extraire des informations exploitables à partir de leurs diverses sources et formats de données.
Dans le même temps, les exigences réglementaires croissantes ont également nécessité l'ingestion de données provenant de diverses sources pour prendre des décisions éclairées. Les autorités réglementaires de Californie imposent la collecte, le stockage et l'analyse des données afin de réduire les perturbations causées par les incendies de forêt qui pèsent chaque année sur l'économie de la communauté et des entreprises. Pour cela, les entreprises de services publics doivent ingérer, analyser et appliquer des techniques de prédiction basées sur l'intelligence artificielle ou l'apprentissage automatique sur des données volumineuses. Ce changement dans la dynamique des données a entraîné une croissance exponentielle en termes de volume de données, de sources de données, de modèles d'échange de données et de formats de données.
Gérer le volume et la complexité des données
Aujourd'hui, une quantité importante de données d'entreprise est générée à partir de sources externes plutôt que de systèmes d'enregistrement internes (SOR). Le type de données stockées est transactionnel ainsi que les données d'engagement. Les données d'engagement peuvent être 10 à 20 fois plus volumineuses que les données transactionnelles. Bien que les technologies de mégadonnées aient introduit le stockage distribué et accéléré le traitement des données grâce à un traitement parallèle massif, elles ne traitent pas de la mise à l'échelle dynamique de l'acquisition, du stockage et du traitement des données en fonction de la demande.
La mise à l'échelle élastique du calcul et du stockage sur site est à forte intensité humaine, lourde et coûteuse. Même l'acquisition de données à partir de plusieurs sources externes augmente les frais généraux. Par conséquent, les entreprises sont confrontées à plusieurs défis liés à la gestion des données sur site. C'est difficile de:
- Augmentez le traitement et le stockage des données pour un augmentation exponentielle des données polymorphes
- Gérer différents mécanismes pour ingérer des données à partir de systèmes externes et internes
- Garantir une haute disponibilité des données et un accès sécurisé en temps quasi réel aux informations sur les données
La nécessité est la mère de l'invention
L'évolution du cloud computing a coïncidé avec une croissance exponentielle des données. Le cloud a fait abstraction du problème de la mise à l'échelle infinie de la puissance de stockage et de traitement à la demande. Il a également fourni une zone d'atterrissage de données gérées pour l'ingestion de données à partir de divers systèmes internes et externes.
Amazon Web Services (AWS) offre un large éventail de services de données hautement disponibles et entièrement gérés pour plusieurs types de données, qu'elles soient relationnelles, semi-structurées ou non structurées. Amazon Relational Database Service (RDS) et Amazon Aurora s'adressent au domaine relationnel, tandis qu'Amazon DynamoDB est un service de base de données NoSQL.
AWS fournit également des services gérés pour d'autres bases de données populaires compatibles NoSQL telles qu'Amazon Document DB avec compatibilité MongoDB et Amazon Keyspaces pour Apache Cassandra. Outre ces services gérés, toutes les principales bases de données NoSQL telles que Couchbase, MongoDB et Cassandra disposent d'une offre de base de données gérée en tant que service sur AWS, et AWS fournit également une plate-forme sur laquelle les clients peuvent utiliser Amazon EC2 (Elastic Compute Cloud) pour installer et exécutez ces bases de données comme un logiciel indépendant.
Naviguer dans la migration des données, optimisée par la stratégie de migration AWS et Infosys
Un sonmigration de données stratégie est essentielle pour assurer des opérations transparentes et la continuité des activités. Dans certains cas, il peut être avantageux de conserver certains types de données sur site en raison d'exigences réglementaires. L'approche de migration des données peut varier en fonction de la taille et de la nature des données.
Par exemple, si le volume de données est énorme, il est prudent d'adopter AWS Snow Family, composé d'AWS Snowcone, AWS Snowball et AWS Snowmobile. Cette suite de services offre un certain nombre d'appareils physiques et de points de capacité pour aider à transporter physiquement jusqu'à des exaoctets de données dans le cloud AWS.
Pour la transformation des données, AWS fournit Amazon Elastic Map Reduce (EMR), qui gère les clusters Hadoop dans le cloud, et AWS Glue pour gérer les services ETL. De plus, Amazon Athena et Amazon Redshift avec spectre fournissent une implémentation de data lakehouse dans le cloud, et Amazon Quicksight ajoute une couche de visualisation pour les utilisateurs professionnels.
Pour l'ingestion continue de données à partir de diverses ressources dans le cloud AWS, AWS fournit des services de migration et d'ingestion de données qui peuvent être utilisés, comme AWS Data Migration Service (DMS), qui ingère des données relationnelles dans AWS. De plus, les services Amazon Kinesis aident à ingérer, stocker et traiter les données de streaming.
Après la migration, les entreprises doivent envisager de gérer les coûts de fonctionnement. La mise en œuvre d'une couche d'observatoire permet de suivre et de gérer l'utilisation et l'optimisation des ressources sur le cloud. Les métriques collectées via AWS Cloud Trail, Cloud Watch et les métriques de facturation aident les entreprises à créer et à construire cette couche d'observatoire.
Infosys a travaillé avec plusieurs clients mondiaux dans la migration, la modernisation et la création de plates-formes de données sur le cloud. Nous pensons qu'une approche basée sur la plate-forme pour migrer les applications et les données vers le cloud est impérative pour une migration transparente.
Par exemple, nous avons repensé le paysage des données d'un fabricant d'appareils pour mieux gérer près d'un pétaoctet de données résidant dans le stockage en réseau (NAS) sur site. Les données augmentaient de 300% d'année en année. Le système permettait aux utilisateurs de télécharger des images, des descriptions d'incidents et des journaux d'application liés aux défauts de l'appareil. La solution pour le système de gestion des données a été conçue à l'aide d'Amazon S3, d'Amazon EMR et du catalogue AWS Glue pour la gestion des métadonnées. Notre choix a été déterminé par plusieurs facteurs :
- Amazon Simple Storage Service S3 (Amazon S3) fournit la sécurité, l'évolutivité et un magasin d'objets hautement disponible pour le stockage de fichiers à l'échelle du pétaoctet sur le NAS.
- Amazon S3 TransferManager permet de gérer les téléchargements de fichiers volumineux via des téléchargements en plusieurs parties.
- Amazon S3 Transfer Accelerator permet d'acheminer les données vers l'emplacement périphérique le plus proche via un chemin réseau optimisé pour un transfert de fichiers plus rapide et plus sécurisé.
- Amazon S3 fournit une zone d'atterrissage commune et standard pour l'échange de données entre les parties prenantes.
- Amazon EMR et AWS Glue Catalog conviennent parfaitement au traitement ETL de gros volumes à grande échelle et stockent les métadonnées, qui subissent de fréquents changements structurels.
La migration des données et des charges de travail des applications vers le cloud est un impératif pour les entreprises afin de pérenniser leurs activités. Une approche automatisée et bien orchestrée permet aux entreprises de réaliser les avantages de la migration des données vers le cloud.
Afin de donner de la prévisibilité à la modernisation, Infosys offre à ses clients laSuite de modernisation Infosyset son composant Infosys Database Migration Platform, qui fait partie deCobalt d'Infosys . Cela aide les entreprises à migrer des RDBM sur site vers des bases de données cloud, telles qu'AWS RDS, Amazon Aurora, ou des bases de données NoSQL telles qu'Amazon DynamoDB et Amazon DocumentDB.
À propos des auteurs:
Naresh Duddu, AVP et Head, Cloud & Open Source, Pratique de modernisation, Infosys
Jignesh Desai est l'architecte des solutions partenaires de migration AWS WW pour Infosys
Saurabh Shrivastava est le leader mondial AWS SA pour Infosys
Source link