Site icon Blog ARC Optimizer

Quelles entreprises qui apprécient les données brutes comprennent les analyses


Les données massives et les analyses deviennent de plus en plus essentielles pour les entreprises de presque tous les secteurs et, à mesure qu'elles se propagent, les questions les concernant se développent également. Un point de blocage important – et, à mon avis, l'un des plus intéressants – est la manière dont ces organisations choisissent de stocker leurs données et pourquoi.

Aujourd'hui, il existe deux principaux modèles de stockage des données pour analyse: le magasin de données et le lac de données.

Avez-vous déjà visité le site de nouvelles de cryptage et de crypto-monnaie sans hype?

Il s'appelle Hard Fork.

il est prêt à être appelé pour traitement et analyse. Cependant, les similitudes se terminent une fois que vous examinez plus en profondeur, car les lacs de données offrent une perspective radicalement différente de la manière dont les données doivent être conservées et, plus important encore, des données à stocker.

alors que les entrepôts de données conservent les données qui ont été nettoyées et sont structurées, les lacs de données adoptent une approche plus inclusive, stockant les données brutes et les données structurées dans une architecture plate.

com / bliki / DataLake.html

Pour les critiques, ceci pour les marais de données que les utilisateurs doivent parcourir pour trouver des informations utiles. C’est une critique compréhensible, mais c’est celle que j'estime manquer. Bien que les lacs de données stockent des données qui n'ont pas été traitées ou nettoyées, cela ne les rend pas inutiles.

Au contraire, en fait.

En raison de cette masse d'informations, les entreprises peuvent se donner un avantage significatif. Plus important encore, en ne filtrant aucune des données collectées, ces entreprises seront probablement mieux préparées à comprendre les tendances futures que celles qui évitent les signaux bruts en faveur de la structure.

Une structure plus simple et plus flexible

Les entrepôts sont sans doute l'implémentation la plus courante du stockage de données aujourd'hui, principalement en raison de la nécessité pour les utilisateurs finaux d'accéder à des données pré-analysées et strictement ciblées. Pour y parvenir, les entrepôts de données doivent supporter des contraintes assez lourdes.

Les entrepôts de données sont rigides par définition, ce qui les rend peu adaptés au monde de plus en plus flexible de l'analyse du big data. Cela les rend incapables de faire face à différentes demandes, à des changements rapides et à des ensembles de données massifs qui ne sont pas toujours nettoyés au préalable pour des raisons d'efficacité. Les plates-formes Data Lake offrent un moyen beaucoup plus rapide de créer une analyse, James Dixon, auteur du terme explique:

Si vous considérez un datamart comme un magasin d’eau embouteillée et structuré pour faciliter la consommation – le lac de données est une grande masse d'eau dans un état plus naturel. Le contenu du lac de données s'écoule d'une source pour remplir le lac, et divers utilisateurs du lac peuvent venir examiner, plonger ou prélever des échantillons.

D'après mon expérience, les entreprises qui valorisent des données, par opposition aux résultats strictement immédiats, les lacs de données offrent une amélioration significative en termes de pool d'informations à choisir et de la manière dont ils peuvent accéder à ces données.

les entrepôts stockent, les lacs de données agrègent simplement les données collectées à partir de diverses sources et fournissent une boîte à outils plus importante pour le traiter.

L'intérêt de franchir le pas

Les lacs de données ne font pas de distinction. Au lieu de cela, ils permettent de stocker simultanément plusieurs formats de données. Contrairement aux entrepôts de données, ces structures permettent aux utilisateurs de créer des agrégations ad hoc à tout moment, en accédant à différentes données si nécessaire et en effectuant des analyses qui ne respectent pas toujours une structure définie.

Une étude de cas récente d'Intel a montré que la création de lacs de données et la mise en œuvre de politiques de gouvernance, par opposition à la mise en place de règles rigides, entraînent une perte de valeur. des silos de données dans un entrepôt, ont donné des résultats nettement meilleurs à l’échelle de l’organisation. Dell EMC a pu réduire les temps de réponse des requêtes de quatre heures à moins d'une minute après avoir plongé dans un lac.

Dans un autre exemple récent, la plateforme de commentaires utilisateur Vicomi Upsolver et revendiqué à réduisent considérablement leur temps de fonctionnement tout en fournissant des analyses plus simples et plus flexibles. Vicomi a trouvé que l'architecture de data lake offrait une solution de stockage plus agile qui simplifiait les analyses approfondies. sont venus à la valeur des lacs de données. Apparemment, la société est passée de 90% de son entrepôt de données à des processus ELT (Extract, Load, and Transform), qui consomment beaucoup de ressources, pour des résultats impressionnants. En cinq ans, ils ont réussi à réduire leurs dépenses en immobilisations de 33 millions de dollars et à augmenter leur capacité de stockage 20 fois.

Pour moi, il est clair que, contrairement aux entrepôts nécessitant des ressources importantes sont moins chers, plus rapides et plus adaptables. La différence est tellement évidente qu'elle est presque risible.

Plus que tout, je trouve que les lacs de données soulignent l'importance non seulement des données nettoyées, mais de toutes les données. En se concentrant sur la forêt plutôt que sur les arbres, ils offrent également un moyen plus créatif de visualiser les données. Au lieu de complexes complexes et d’écosystèmes qui limitent la façon dont ils peuvent être traités, l’utilisation d’un lac de données encourage une approche créative et non structurée.

Pourquoi je crois aux données brutes

data lake signifie que les scientifiques et les analystes de données ont accès à un éventail d'informations beaucoup plus large.

Au lieu de simplement examiner les transactions, les organisations peuvent voir comment différents types de données interagissent et trouvent des liens inédits ou des modèles intéressants. conduire à de plus grandes découvertes. Dans un monde qui devient de plus en plus dépendant des données, limiter la quantité d'informations disponibles pour comprendre les performances passées, les tendances futures et d'autres modèles clés est une folie.

Cet article fait partie de notre série de contributions. Les opinions exprimées sont celles de l'auteur et ne sont pas nécessairement partagées par TNW.




Source link
Quitter la version mobile