L’essor du data lakehouse : une nouvelle ère de valeur des données

Avec 65 millions de doses de vaccins à administrer au plus fort de la pandémie de COVID-19, Luigi Guadagno, CIO de Walgreens, avait besoin de savoir où les envoyer. Pour le savoir, il a interrogé le Data Lakehouse de Walgreens, mis en œuvre avec la technologie Databricks sur Microsoft Azure.
« Nous avons tiré parti de la maison du lac pour comprendre le moment », déclare le CIO. Pour Guadagno, la nécessité de faire correspondre la disponibilité des vaccins à la demande des patients est venue au bon moment, sur le plan technologique. La chaîne pharmaceutique géante avait mis en place sa maison du lac pour relever ces défis dans sa quête, comme le dit Guadagno, « pour obtenir le bon produit au bon endroit pour le bon patient ».
Auparavant, Walgreens tentait d’accomplir cette tâche avec son lac de données, mais faisait face à deux obstacles importants : le coût et le temps. Ces défis sont bien connus de nombreuses organisations car elles ont cherché à obtenir des connaissances analytiques à partir de leurs vastes quantités de données. Le résultat est un changement de paradigme émergent dans la façon dont les entreprises font émerger les informations, qui les voit s’appuyer sur une nouvelle catégorie de technologie conçue pour aider les organisations à maximiser la valeur de leurs données.
Entrez les données Lakehouse
Traditionnellement, les organisations ont maintenu deux systèmes dans le cadre de leurs stratégies de données : un système d’enregistrement sur lequel gérer leur entreprise et un système d’informations telles qu’un entrepôt de données à partir duquel collecter intelligence économique (BI). Avec l’avènement des mégadonnées, un deuxième système d’informations, le lac de données, est apparu pour fournir des informations sur l’intelligence artificielle et l’apprentissage automatique (IA/ML). Cependant, de nombreuses organisations trouvent intenable ce paradigme consistant à s’appuyer sur deux systèmes d’informations distincts.
L’entrepôt de données nécessite un processus d’extraction, de transformation et de chargement (ETL) chronophage pour déplacer les données du système d’enregistrement vers l’entrepôt de données, après quoi les données seraient normalisées, interrogées et les réponses obtenues. Pendant ce temps, les données non structurées seraient déversées dans un lac de données où elles seraient soumises à une analyse par des data scientists qualifiés utilisant des outils tels que Python, Apache Spark et TensorFlow.
Sous Guadagno, Walgreens, basé à Deerfield, dans l’Illinois, a consolidé ses systèmes d’informations dans une seule data lakehouse. Et il n’est pas seul. Un nombre croissant d’entreprises constatent que les maisons du lac, qui appartiennent à une catégorie de produits généralement connue sous le nom d’accélérateurs de requêtes, répondent à un besoin critique.
« Les Lakehouses compensent les défaillances de certains lacs de données. C’est ainsi que nous sommes arrivés ici. Les gens ne pouvaient pas tirer profit du lac », explique Adam Ronthal, vice-président et analyste chez Gartner. Dans le cas de Databricks Delta Lake Lakehouse, les données structurées d’un entrepôt de données sont généralement ajoutées à un lac de données. À cela, le Lakehouse ajoute des couches d’optimisation pour rendre les données plus largement consommables pour la collecte d’informations.
La maison du lac Databricks Delta Lake n’est qu’une entrée sur un marché de plus en plus encombré, qui comprend des fournisseurs tels que Snowflake, Starburst, Dremio, GridGain, DataRobot et peut-être une douzaine d’autres, selon Gartner. Guide du marché pour les accélérateurs de requêtes analytiques.
Moonfare, une société de capital-investissement, est en train de passer d’un entrepôt de données basé sur PostgreSQL sur AWS à un data lakehouse Dremio sur AWS pour l’informatique décisionnelle et l’analyse prédictive. Lorsque la mise en œuvre sera mise en ligne à l’automne 2022, les utilisateurs professionnels pourront effectuer des analyses en libre-service en plus des données dans AWS S3. Les requêtes incluront quelles campagnes marketing fonctionnent le mieux avec quels clients et quels gestionnaires de fonds sont les plus performants. La maison du lac contribuera également à la prévention de la fraude.
« Vous pouvez interroger intuitivement les données du lac de données. Les utilisateurs provenant d’un environnement d’entrepôt de données ne devraient pas se soucier de l’emplacement des données », déclare Angelo Slawik, ingénieur de données chez Moonfare. « Ce qui est super important, c’est que cela supprime les tâches ETL », dit-il, ajoutant : « Avec Dremio, si les données sont dans S3, vous pouvez interroger ce que vous voulez. »
Moonfare a sélectionné Dremio dans le cadre d’un runoff de preuve de concept avec AWS Athena, un service de requête interactif qui permet des requêtes SQL sur des données S3. Selon Slawik, Dremio s’est avéré plus performant grâce à des performances très rapides et à une interface utilisateur hautement fonctionnelle qui permet aux utilisateurs de suivre visuellement la lignée des données. Les vues basées sur les rôles et le contrôle d’accès de Dremio pour la sécurité et la gouvernance étaient également importants, ce qui aide l’entreprise basée à Berlin, en Allemagne, à se conformer aux réglementations GDPR.
Chez BNP Paribas, basé à Paris, des silos de données dispersés étaient utilisés pour la BI par différentes équipes de la banque géante. Emmanuel Wiesenfeld, un entrepreneur indépendant, a repensé les silos pour créer un système centralisé afin que les utilisateurs professionnels tels que les commerçants puissent exécuter leurs propres requêtes d’analyse à travers « une seule source de vérité ».
« Les équipes commerciales voulaient collaborer, mais les données étaient dispersées. Les outils d’analyse des données étaient également dispersés, ce qui les rendait coûteux et difficiles à entretenir », explique Wiesenfeld. « Nous voulions centraliser les données de nombreuses sources de données pour permettre une connaissance de la situation en temps réel. Désormais, les utilisateurs peuvent écrire leurs propres scripts et les exécuter sur les données », explique-t-il.
À l’aide de la technologie Apache Ignite de GridGain, Wiesenfeld a créé une architecture informatique en mémoire. La clé de la nouvelle approche est le passage de l’ETL à l’ELT, où la transformation est effectuée tout en effectuant des calculs afin de rationaliser l’ensemble du processus, selon Wiesenfeld, qui affirme que le résultat a été de réduire la latence d’heures en secondes. Wiesenfeld a depuis lancé une startup appelée Kawa pour apporter des solutions similaires à d’autres clients, en particulier les fonds spéculatifs.
Starburst adopte une approche maillée, tirant parti de la technologie open source Trino dans Starburst Enterprise pour améliorer l’accès aux données distribuées. Plutôt que de déplacer les données dans un entrepôt central, le maillage permet l’accès tout en permettant aux données de rester là où elles se trouvent. Sophia Genetics utilise Starburst Enterprise dans sa plateforme d’analyse SaaS de bioinformatique basée sur le cloud. Une raison : la conservation des données de santé sensibles dans des pays spécifiques est importante pour des raisons réglementaires. « En raison de contraintes de conformité, nous ne pouvons tout simplement pas déployer de système qui accède à toutes les données à partir d’un point central », a déclaré Alexander Seeholzer, directeur des services de données chez Sophia Genetics, basée en Suisse, dans une étude de cas Starburst.
Les nouvelles plates-formes d’accélération des requêtes ne sont pas en reste. Databricks et Snowflake ont introduit des clouds de données et des data lakehouses avec des fonctionnalités conçues pour les besoins des entreprises dans des secteurs spécifiques tels que la vente au détail et la santé. Ces mouvements font écho à l’introduction de Clouds spécifiques à l’industrie par les hyperscalers Microsoft Azure, Google Cloud Platform et Amazon Web Services.
La maison du lac comme meilleure pratique
Ronthal de Gartner considère l’évolution du data lake vers le data lakehouse comme une tendance inexorable. « Nous allons dans la direction où le data lakehouse devient une meilleure pratique, mais tout le monde évolue à une vitesse différente », déclare Ronthal. « Dans la plupart des cas, le lac n’était pas capable de répondre aux besoins de production. »
Malgré l’empressement des fournisseurs de data lakehouse à intégrer l’entrepôt de données dans leurs offres, Gartner prédit que l’entrepôt perdurera. « Il est peu probable que les accélérateurs de requêtes analytiques remplacent l’entrepôt de données, mais ils peuvent rendre le lac de données beaucoup plus précieux en permettant des performances qui répondent aux exigences du personnel commercial et technique », conclut son rapport sur le marché des accélérateurs de requêtes.
Noel Yuhanna, vice-président et analyste principal chez Forrester Research, n’est pas d’accord, affirmant que la maison du lac remplacera en effet les entrepôts et les lacs séparés.
« Nous voyons l’avenir des entrepôts et des lacs entrer dans une maison de lac, où un système suffit », déclare Yuhanna. Pour les organisations disposant d’entrepôts et de lacs distribués, l’architecture maillée telle que celle de Starburst répondra à un besoin, selon Yuhanna, car elle permet aux organisations de mettre en œuvre une gouvernance fédérée sur divers emplacements de données.
Quelle que soit l’approche, Yuhanna affirme que les entreprises cherchent à accélérer la valorisation de leurs données. “Ils ne veulent pas de ‘client 360’ dans six mois ; ils le veulent la semaine prochaine. Nous appelons cela des données « rapides ». Dès que les données sont créées, vous exécutez des analyses et des informations dessus », dit-il.
D’un système d’insight à un système d’action
Pour Guadagno, la distribution de vaccins était une initiative de grande envergure et salvatrice, mais la maison du lac Walgreens fait également un travail considérable dans des tâches de vente au détail plus banales mais essentielles, telles que l’envoi de rappels de prescription et de coupons de produits. Ces processus combinent une compréhension du comportement des clients avec la disponibilité des stocks pharmaceutiques et de vente au détail. « Cela peut devenir très sophistiqué, avec des informations très personnalisées », dit-il. « Cela nous permet de devenir centrés sur le client. »
Aux autres qui se lancent dans un voyage similaire, Guadagno conseille : « Mettez toutes vos données dans la maison du lac aussi vite que possible. Ne vous lancez pas dans une longue modélisation ou rationalisation des données. Il vaut mieux penser à créer de la valeur. Mettez tout cela dedans et donnez à chacun l’accès grâce à la gouvernance et à la collaboration. Ne gaspillez pas d’argent dans l’intégration et l’ETL.
Chez Walgreens, la maison du lac Databricks ne se limite pas à rendre la technologie plus efficace. C’est la clé de sa stratégie commerciale globale. « Nous avons pour mission de créer une expérience très personnalisée. Cela commence au point de vente — ce dont vous avez besoin et quand vous en avez besoin. C’est finalement à cela que servent les données », déclare Guadagno. « Il n’y a plus de système d’enregistrement et de système de perspicacité. C’est un système d’action.
Source link