Les data lakehouses donnent aux entreprises un avantage analytique

Pour les entreprises qui cherchent à tirer le meilleur parti de leurs données, en particulier en temps réel, le concept de « data lakehouse » commence à faire son chemin.
L’idée derrière le data lakehouse est de fusionner le meilleur de ce que les lacs de données et les entrepôts de données ont à offrir, explique Adam Ronthal, analyste chez Gartner.
Les entrepôts de données, quant à eux, permettent aux entreprises de stocker de grandes quantités de données structurées avec des schémas bien définis. Ils sont conçus pour prendre en charge un grand nombre de requêtes simultanées et pour fournir les résultats rapidement à de nombreux utilisateurs simultanés.
Les lacs de données, en revanche, permettent aux entreprises de collecter des données brutes et non structurées dans de nombreux formats pour que les analystes de données puissent les parcourir. Ces vastes pools de données ont pris de l’importance ces derniers temps grâce à la flexibilité qu’ils offrent aux entreprises pour stocker de vastes flux de données sans avoir à définir au préalable l’objectif de le faire.
Le marché de ces deux types de référentiels de données volumineuses « converge vers le milieu, au concept de Lakehouse », déclare Ronthal, les fournisseurs d’entrepôts de données établis ajoutant la capacité de gérer les données non structurées, et les fournisseurs de lacs de données ajoutant une structure à leurs offres.
Par exemple, sur AWS, les entreprises peuvent désormais coupler Amazon Redshift, un entrepôt de données, avec Amazon Redshift Spectrum, ce qui permet à Redshift d’accéder aux lacs de données S3 non structurés d’Amazon. Pendant ce temps, le lac de données Snowflake peut désormais prendre en charge des données non structurées avec des tables externes, explique Ronthal.
Lorsque les entreprises ont des lacs et des entrepôts séparés et que les données doivent passer de l’un à l’autre, cela introduit une latence et coûte du temps et de l’argent, ajoute Ronthal. La combinaison de la plate-forme deux en une réduit les efforts et le déplacement des données, accélérant ainsi le rythme de découverte des informations sur les données.
Et, selon la plate-forme, un lac de données peut également offrir d’autres fonctionnalités, telles que la prise en charge du streaming de données, l’apprentissage automatique et la collaboration, offrant aux entreprises des outils supplémentaires pour tirer le meilleur parti de leurs données.
Voici un aperçu des avantages des data lakehouses et de la manière dont plusieurs organisations de premier plan tiennent leur promesse dans le cadre de leurs stratégies d’analyse.
Améliorer l’expérience du jeu vidéo
L’utilisation par Sega Europe des référentiels de données à l’appui de ses jeux vidéo a considérablement évolué au cours des dernières années.
En 2016, la société a commencé à utiliser l’entrepôt de données Amazon Redshift pour collecter les données d’événements de son jeu vidéo Football Manager. Au début, ces données d’événement consistaient simplement en des joueurs ouvrant et fermant des parties. L’entreprise avait deux membres du personnel qui examinaient ces données, qui étaient transmises à Redshift à un rythme de dix événements par seconde.
« Mais il y avait tellement plus de données que nous pouvions collecter », déclare Felix Baker, responsable des services de données de l’entreprise. « Comme les équipes que les gens dirigeaient ou combien d’argent ils dépensaient. »
En 2017, Sega Europe collectait 800 événements par seconde, avec cinq employés travaillant sur la plateforme. En 2020, le système de l’entreprise capturait 7 000 événements par seconde à partir d’un portefeuille de 30 jeux Sega, avec 25 employés impliqués.
À ce moment-là, le système commençait à atteindre ses limites, dit Baker. En raison des structures de données nécessaires pour être incluses dans l’entrepôt de données, les données arrivaient par lots et il fallait une demi-heure à une heure pour les analyser, dit-il.
« Nous voulions analyser les données en temps réel », ajoute-t-il, mais cette fonctionnalité n’était pas disponible dans Redshift à l’époque.
Après avoir effectué des preuves de concept avec trois plates-formes – Redshift, Snowflake et Databricks – Sega Europe a décidé d’utiliser Databricks, l’un des pionniers de l’industrie des data lakehouses.
« Databricks a proposé une solution de services gérés prête à l’emploi qui répondait à nos besoins sans que nous ayons à développer quoi que ce soit », déclare-t-il. Cela comprenait non seulement le streaming en temps réel, mais aussi l’apprentissage automatique et les espaces de travail collaboratifs.
De plus, l’architecture du lac de données a permis à Sega Europe d’ingérer également des données non structurées, telles que les flux de médias sociaux.
« Avec Redshift, nous avons dû nous concentrer sur la conception de schémas », explique Baker. « Chaque table devait avoir une structure définie avant que nous puissions commencer à ingérer des données. Cela le rendait maladroit à bien des égards. Avec le Data Lakehouse, c’est plus facile.
La plate-forme Databricks de Sega Europe est entrée en production à l’été 2020. Deux ou trois consultants de Databricks ont travaillé aux côtés de six ou sept personnes de Sega Europe pour mettre en place la solution de streaming, correspondant à ce que l’entreprise avait précédemment mis en place avec Redshift. La nouvelle maison du lac est construite en trois couches, dont la couche de base n’est qu’une grande table dans laquelle tout est déversé.
« Si les développeurs créent de nouveaux événements, ils n’ont pas à nous dire d’attendre de nouveaux champs – ils peuvent littéralement tout nous envoyer », déclare Baker. « Et nous pouvons ensuite créer des emplois au-dessus de cette couche et diffuser les données que nous avons acquises. »
La transition vers Databricks, qui repose sur Apache Spark, s’est déroulée sans heurts pour Sega Europe, grâce à une expérience antérieure avec le moteur open source pour le traitement de données à grande échelle.
« Au sein de notre équipe, nous avions déjà une certaine expertise avec Apache Spark », déclare Baker. « Cela signifiait que nous pouvions mettre en place des flux très rapidement en fonction des compétences que nous avions déjà. »
Aujourd’hui, la société traite 25 000 événements par seconde, avec plus de 30 employés de données et 100 titres de jeux dans le système. Au lieu de prendre 30 minutes à une heure à traiter, les données sont prêtes en une minute.
« Le volume de données collectées a augmenté de façon exponentielle », déclare Baker. En fait, après la pandémie, l’utilisation de certains jeux a doublé.
La nouvelle plate-forme a également ouvert de nouvelles possibilités. Par exemple, le partenariat de Sega Europe avec Twitch, une plate-forme de streaming où les gens regardent d’autres personnes jouer à des jeux vidéo, a été amélioré pour inclure un flux de données pour son jeu Humankind, afin que les téléspectateurs puissent obtenir l’historique d’un joueur, y compris les niveaux qu’il a terminés, les les batailles qu’ils ont gagnées et les civilisations qu’ils ont conquises.
« La superposition sur Twitch se met à jour au fur et à mesure qu’ils jouent au jeu », déclare Baker. « C’est un cas d’utilisation que nous n’aurions pas pu réaliser avant Databricks. »
L’entreprise a également commencé à tirer parti des capacités d’apprentissage automatique du Lakehouse. Par exemple, les scientifiques des données de Sega Europe ont conçu des modèles pour comprendre pourquoi les joueurs arrêtent de jouer et pour faire des suggestions sur la façon d’augmenter la rétention.
« La vitesse à laquelle ces modèles peuvent être construits a été incroyable, vraiment », déclare Baker. « Ils ne font que lancer ces modèles, semble-t-il, toutes les deux semaines. »
Les avantages commerciaux des data lakehouses
La flexibilité et la nature fourre-tout des data lakehouses s’avèrent rapidement attrayantes pour les organisations qui cherchent à capitaliser sur leurs actifs de données, en particulier dans le cadre d’initiatives numériques qui s’articulent autour d’un accès rapide à un large éventail de données.
« Le principal facteur de valeur réside dans les économies de coûts rendues possibles par la fourniture d’une source pour toutes les données structurées et non structurées d’une organisation », déclare Steven Karan, vice-président et responsable des informations et des données de la société de conseil Capgemini Canada, qui a aidé à mettre en place des data lakehouses chez organisations leaders dans les services financiers, les télécommunications et la vente au détail.
De plus, les data lakehouses stockent les données de manière à ce qu’elles soient facilement utilisables par un large éventail de technologies, des systèmes traditionnels de veille économique et de reporting à l’apprentissage automatique et à l’intelligence artificielle, ajoute Karan. « Les autres avantages incluent une redondance réduite des données, des opérations informatiques simplifiées, un schéma de données simplifié à gérer et une gouvernance des données plus facile à activer. »
Un cas d’utilisation particulièrement précieux pour les data lakehouses consiste à aider les entreprises à tirer parti de données précédemment piégées dans des systèmes hérités ou cloisonnés. Par exemple, une entreprise cliente de Capgemini, qui s’était développée grâce à des acquisitions sur une décennie, ne pouvait pas accéder aux données précieuses relatives aux revendeurs de ses produits.
« En migrant les données cloisonnées des entrepôts de données hérités vers un data lakehouse centralisé, le client a pu comprendre au niveau de l’entreprise lesquels de ses partenaires revendeurs étaient les plus efficaces et comment les changements tels que les programmes et les structures de référence ont généré des revenus », dit-il. .
Selon Meera Viswanathan, chef de produit senior chez Fivetran, une société de pipeline de données, le fait de placer les données dans un seul data lakehouse facilite leur gestion. Les entreprises qui utilisaient traditionnellement à la fois des lacs de données et des entrepôts de données ont souvent des équipes distinctes pour les gérer, ce qui rend la tâche confuse pour les unités commerciales qui devaient consommer les données, dit-elle.
Outre Databricks, Amazon Redshift Spectrum et Snowflake, Microsoft, avec sa plate-forme Lakehouse Azure Synapse, et Google, avec son BigLake sur Google Cloud Platform, ainsi que la plate-forme Data Lakehouse Starburst, figurent parmi les autres fournisseurs de l’espace Data Lakehouse.
Accélérer le traitement des données pour de meilleurs résultats de santé
Une entreprise qui capitalise sur ces avantages et sur d’autres des data lakehouses est la société d’analyse et de services en sciences de la vie IQVIA.
Avant la pandémie, les sociétés pharmaceutiques qui menaient des essais de médicaments avaient l’habitude d’envoyer des employés dans des hôpitaux et d’autres sites pour collecter des données sur des éléments tels que les effets indésirables, explique Wendy Morahan, directrice principale de l’analyse des données cliniques chez IQVIA. « C’est ainsi qu’ils s’assurent que le patient est en sécurité. »
Cependant, une fois que la pandémie a frappé et que les sites ont été verrouillés, les sociétés pharmaceutiques ont dû se démener pour trouver comment obtenir les données dont elles avaient besoin – et les obtenir d’une manière conforme à la réglementation et suffisamment rapide pour leur permettre de repérer les problèmes potentiels. aussi vite que possible.
De plus, avec l’essor des appareils portables dans le domaine de la santé, « vous collectez désormais des centaines de milliers de points de données », ajoute Morahan.
IQVIA a développé une technologie pour faire exactement cela au cours des 20 dernières années, explique son collègue Suhas Joshi, également directeur principal de l’analyse des données cliniques de l’entreprise. Il y a environ quatre ans, l’entreprise a commencé à utiliser des data lakehouses à cette fin, y compris Databricks et la fonctionnalité data lakehouse désormais disponible avec Snowflake.
« Avec Snowflake et Databricks, vous avez la possibilité de stocker les données brutes, dans n’importe quel format », déclare Joshi. « Nous recevons beaucoup d’images et d’audio. Nous obtenons toutes ces données et les utilisons pour la surveillance. Dans le passé, cela aurait impliqué des étapes manuelles, allant vers différents systèmes. Cela aurait demandé du temps et des efforts. Aujourd’hui, nous sommes en mesure de tout faire sur une seule plateforme.
Le processus de collecte de données est également plus rapide, dit-il. Auparavant, l’entreprise devait écrire du code pour acquérir des données. Désormais, les données peuvent même être analysées sans avoir à être traitées au préalable pour s’adapter à un format de base de données.
Prenons l’exemple d’une patiente participant à un essai de médicament qui obtient un résultat de laboratoire indiquant qu’elle est enceinte, mais que le formulaire de grossesse n’a pas été rempli correctement et que le médicament est nocif pendant la grossesse. Ou un patient qui a un événement indésirable et qui a besoin d’un médicament contre l’hypertension, mais le médicament n’a pas été prescrit. Ne pas attraper ces problèmes rapidement peut avoir des conséquences dramatiques. « Vous risquez peut-être de mettre en danger la sécurité d’un patient », déclare Joshi.
Source link