Fermer

juillet 1, 2023

Analyse de données dans le cloud : comprendre les coûts cachés

Analyse de données dans le cloud : comprendre les coûts cachés



Luke Roquet s’est récemment entretenu avec un client qui a raconté le choc d’avoir reçu une facture de 700 000 $ pour une seule charge de travail de science des données exécutée dans le cloud. Lorsque Roquet, vice-président directeur du marketing produit chez Clouderaa raconté l’histoire à un autre client, il a appris que cette entreprise avait reçu une note de 400 000 $ pour un travail similaire la semaine précédente.

De telles histoires devraient démentir le mythe commun selon lequel le cloud computing consiste toujours à économiser de l’argent. En fait, « la plupart des cadres à qui j’ai parlé disent que le déplacement d’une charge de travail équivalente d’un site vers le cloud entraîne une augmentation des coûts d’environ 30 % », a déclaré Roquet.

Cela ne signifie pas que le cloud est une mauvaise option pour les projets d’analyse de données. Dans de nombreux scénarios, l’évolutivité et la variété des options d’outillage font du cloud un environnement cible idéal. Mais le choix de l’emplacement des charges de travail liées aux données doit tenir compte de plusieurs facteurs, dont un seul est le coût.

Les charges de travail d’analyse de données peuvent être particulièrement imprévisibles en raison des volumes de données importants impliqués et du temps considérable nécessaire pour former des modèles d’apprentissage automatique (ML). Ces modèles « ont souvent des caractéristiques uniques qui peuvent faire exploser leurs coûts », a déclaré Roquet.

De plus, les applications locales doivent souvent être refactorisées ou reconstruites pour une plate-forme cloud spécifique, a déclaré David Dichmann, directeur principal de la gestion des produits chez Cloudera. « Il n’y a aucune garantie que la charge de travail va être améliorée et vous pouvez finir par être enfermé dans un cloud ou un autre », a-t-il déclaré.

La marche des nuages ​​est en marche

Cela ne semble pas ralentir la migration continue des charges de travail vers le cloud. Fonderie Étude Data & Analytics 2022 ont constaté que 62 % des responsables informatiques s’attendent à ce que la part des charges de travail d’analyse qu’ils exécutent dans le cloud augmente.

Bien que les plates-formes cloud offrent de nombreux avantages, les charges de travail sensibles aux coûts et aux performances « sont souvent mieux exécutées sur site », a déclaré Roquet.

Choisir le bon environnement, c’est atteindre l’équilibre. Le cloud excelle pour les applications éphémères, qui doivent être partagées avec d’autres ou qui utilisent des constructions natives du cloud comme les conteneurs logiciels et l’infrastructure en tant que code, a-t-il déclaré. À l’inverse, les applications sensibles aux performances ou à la latence sont plus appropriées pour une infrastructure locale où les données peuvent être colocalisées et où les longs temps de traitement n’entraînent pas de coûts supplémentaires.

L’objectif doit être d’optimiser les charges de travail pour qu’elles interagissent les unes avec les autres, quel que soit leur emplacement, et de se déplacer selon les besoins entre les environnements locaux et cloud.

Le cas de la portabilité

Dichmann a déclaré que trois composants de base sont nécessaires pour atteindre cette interopérabilité et cette portabilité :

  • Utilisez des formats de données courants, idéalement conformes aux standards ouverts comme Apache Iceberg sur les fichiers Parquet, par exemple. Cela rend les données facilement accessibles par plusieurs technologies pour un certain nombre d’utilisations commerciales
  • Assurez-vous que les services de données sont portables. Ainsi, lorsque des applications métier sont développées dans un environnement, elles peuvent être redéployées dans un autre sans réécriture.
  • Utiliser un ensemble commun de pratiques de gestion des données, d’observabilité et de gouvernance

« Une fois que vous avez une vue de toutes vos données et une façon de les gouverner et de les sécuriser, vous pouvez déplacer les charges de travail sans vous soucier de briser les exigences de gouvernance et de sécurité », a-t-il déclaré. « Les gens savent où se trouvent les données, comment les trouver, et nous sommes tous assurés qu’elles seront utilisées correctement conformément à la politique ou à la réglementation de l’entreprise. »

La portabilité peut être en contradiction avec le désir des clients de déployer les meilleurs services cloud, mais Dichmann a déclaré que « adapté à l’objectif » est un meilleur objectif que le meilleur. Cela signifie qu’il est plus important de faire passer la flexibilité avant les cloches et les sifflets. Cela donne à l’organisation une flexibilité maximale pour décider où déployer les charges de travail.

Un écosystème sain est également tout aussi important que des solutions de points robustes, car une plate-forme commune permet aux clients de profiter d’autres services sans travail d’intégration approfondi.

La meilleure option pour parvenir à la portabilité de la charge de travail consiste à utiliser une couche d’abstraction qui s’exécute sur toutes les principales plates-formes cloud et sur site. La plate-forme de données Cloudera, par exemple, « est une véritable solution hybride qui fournit les mêmes services à la fois dans le cloud et sur site », a déclaré Dichmann. « Il utilise des normes ouvertes qui vous permettent de partager un format commun de données partout où elles doivent être, et d’accéder à un écosystème plus large de services de données qui rend les choses encore plus flexibles, plus accessibles et plus portables. »

Visite Cloudera pour apprendre plus.




Source link