5 raisons pour lesquelles les lacs de données sont vitaux pour l'analyse de démarrage

octobre 23, 2018

Vous ne connaissez peut-être pas encore très bien le terme à la mode «data lake», mais si vous êtes à un stade précoce de démarrage, vous le serez probablement bientôt.

Alors que les entrepôts de données et les dépôts de données ont tendance à forcer les entreprises à paradigmes et silos de données étroits, les Data Lakes mettent en avant une vision plus holistique et plus large de l'analyse. Les Data Lakes offrent une approche plus adaptative de l'analyse des données et mettent l'accent sur la valeur de toutes les informations plutôt que sur des éléments pré-sélectionnés.

La controverse entourant le Big Data sur les Data Lacs tend à se concentrer sur leurs inconvénients perçus. Ils sont trop non structurés, trop volumineux et trop difficiles à gérer. Quoi qu'il en soit, les Data Lakes ont des caractéristiques clés qui les rendent particulièrement utiles, et malgré leur nouveauté relative ils peuvent être particulièrement utiles pour les startups.

En effet, pour une startup, se débarrasser de ses énormes quantités de données peut conduire à une compréhension plus étroite de leur marché et potentiellement ignorer les tendances clés. Au lieu de s'enfermer dans des pratiques de gestion de données rigides, ces cinq raisons montrent pourquoi les lacs de données constituent un élément essentiel du paradigme d'analyse d'une start-up.

Ils permettent de réduire les coûts liés à la mise à l'échelle

Les start-up peuvent démarrer avec moins de flux de données et moins. besoins, mais cela change rapidement quand ils commencent à grandir. Les entrepôts de données sont hautement structurés et nécessitent une maintenance élevée et une surveillance constante par des ingénieurs et des architectes de données dédiés. Cela comprend la création des schémas appropriés pour l'analyse, la modification des modèles d'analyse et même la création des structures appropriées pour le stockage des données épurées.

Des entreprises comme Meta Networks, par exemple, qui propose des outils de réseau en tant que service aux entreprises, collectez des millions de points de données par seconde, chiffres qui augmentent de façon exponentielle à mesure que de nouveaux clients sont intégrés. En construisant des lacs de données avec Upsolver – qui peut reposer sur des systèmes plus facilement évolutifs tels que les serveurs cloud AWS S3 -, la société a pu collecter toutes les données dont elle a besoin sans avoir à pré-construire des structures de schéma et d'entrepôt. .

Ils éliminent les silos de données

Dans une jeune entreprise, le partage rapide des données et la réalisation de diverses analyses transversales peuvent fournir des informations et de nouvelles voies inattendues. Cependant, de nombreuses start-up en démarrage commettent l’erreur de créer des silos de données pour plus de commodité. Une fois les informations fortement partitionnées, il devient plus difficile de communiquer et de transférer des données.

Au niveau de l'entreprise, PwC a mis en place un système de données lacustre au centre médical UC Irvine, ce qui a considérablement amélioré ses opérations. Peut-être encore plus que les startups, les organisations médicales sont sujettes aux silos de données, mais PwC a montré qu'un data lake peut offrir une approche plus agile. L’hôpital a pu fournir de meilleures analyses, des études plus larges et une communication plus rapide grâce à des données qui ne sont pas forcées dans un schéma qui les partitionne.

Ils réduisent le temps perdu à trier et interroger

Quelle que soit la structure de données choisie par une startup. , ils devront consacrer des ressources à sa gestion et à son optimisation. Cela signifie généralement que vous devez passer des heures à configurer des tableaux de bord, des algorithmes d'analyse, un schéma de données et à les gérer de manière cohérente. Cela signifie avoir un membre du personnel qui, s'il n'est pas entièrement dédié à la tâche, prend constamment du temps sur d'autres tâches pour gérer l'entreposage de données.

Les lacs de données, en raison de leur nature non structurée et de leur flux de données bruts, nécessitent beaucoup moins d'effort . Au lieu de dédier un membre de l’équipe à plein temps, ce que la plupart des startups ne peuvent tout simplement pas se permettre, les Data Lakes permettent à chaque membre de l’équipe d’effectuer leur propre analyse sur une base ad hoc, sans nécessiter un processus complexe de nettoyage et de structuration préalable. Plus important encore, cela réduit considérablement le temps d'interrogation.

Elles englobent toutes les données

L'intérêt des mégadonnées est de disposer du plus grand nombre d'informations possible à analyser et à traiter, mais la plupart des entrepôts de données fonctionnent à l'encontre de ce paradigme. Les entrepôts de données filtrent souvent des morceaux importants de données qui ne correspondent pas à des structures prédéterminées, en supprimant souvent un grand nombre de points de données pouvant contenir des informations clés sous un angle différent. L’une des sources les plus importantes de données lacustres fournies par les lacs de données est que leurs vastes référentiels de données proviennent de diverses sources et offrent des moyens uniques de les combiner. Ce modèle sans contexte est extrêmement utile pour l'analyse prédictive ou simplement pour la recherche de tendances intéressantes.

EMC, l'une des solutions de data lac les plus populaires, a été implémentée avec succès dans les services de santé pour améliorer les soins prédictifs. et découverte des tendances. Cependant, il a beaucoup de succès car il permet d’étudier un échantillon beaucoup plus large de données dans différentes configurations. Contrairement aux entrepôts de données, qui imposent des algorithmes d'analyse prédéterminés aux données, disposer d'un ensemble complet de données brutes permet aux jeunes entreprises d'effectuer leur propre analyse en fonction des besoins plutôt que de la technologie.

Ils laissent les entreprises se montrer créatives grâce à l'analyse

. , Data Lakes n’engage pas les entreprises dans des paradigmes spécifiques en matière d’analyse et de compréhension. Les entrepôts de données ont souvent des utilisations essentielles, mais leurs applications sont plus étroites en raison de leurs structures rigides. Parce qu'elles nécessitent une planification minutieuse des flux et des structures de données, les startups doivent décider de leur utilisation exacte avant même de voir les données.

Pour une entreprise qui comprend encore leurs données et leurs canaux, la création d'habitudes restrictives peut finalement s'avérer préjudiciable. analyser la plus grande image. En revanche, les Data Lakes offrent la possibilité d’ignorer les idées préconçues concernant les données et d’explorer des informations de manière unique.

Lakes for the Win

Pour les startups, souvent fières de la rupture et de l’innovation, d’une approche holistique. La distinction entre l'affichage des données et la possibilité d'effectuer une analyse ad hoc en fonction des besoins plutôt que des restrictions est une distinction cruciale.

Votre startup ne peut tout simplement pas prédire avec précision une liste précise et précise d'indicateurs, de sources d'informations et de cas d'utilisation qui seront les plus utiles. important au cours du cycle de vie de l’organisation. En privilégiant une infrastructure de type Data Lake, votre entreprise et ses parties prenantes peuvent revoir ces décisions et débloquer de nouvelles couches de valeur pour les années à venir.

Cet article est publié dans le cadre du réseau des contributeurs IDG. Voulez-vous devenir membre?

Source link