Fermer

avril 29, 2019

Tissage des données brutes dans Gold Business (Partie 1)


La première partie d'une série en deux parties explorant les concepts, la méthodologie et les processus pouvant être utilisés par toute organisation pour déterminer la valeur économique de ses données.

La folie du Big Data a pris feu avec une déclaration provocante «Les données, c'est le nouveau pétrole»: ces données alimenteront la croissance économique du XXIe siècle de la même manière que le pétrole a alimenté la croissance économique du XXe siècle. L'analogie «nouvelle huile» était un excellent moyen de contextualiser la valeur économique des données – de donner à la conversation Big Data un visage facilement reconnaissable. The Economist a récemment déclaré que les données « était la ressource la plus précieuse au monde » avec une couverture comportant des organisations de premier plan cherchant des données.

Cependant, pour comprendre «l'économie du pétrole», il faut commencer par comprendre les différences entre l'huile brute et le carburant raffiné. Pour créer de la valeur à partir du pétrole, le pétrole doit d'abord être raffiné. Par exemple, lorsque le pétrole brut (West Texas brut) est transformé en carburant à indice d'octane élevé (VP MRX02, carburant de course à indice d'octane élevé), le carburant à indice d'octane élevé a 16,9 fois plus de valeur que le pétrole brut.

énergie potentielle) VP MRX02 carburant de course (énergie cinétique)
US $ 61 / baril 125 $ / 5-gallon = 1 050 $ / baril

Carburant de course raffiné de haute qualité, 16,9 fois plus précieux que le pétrole brut brut (à partir du 04/04/19) *

Le pétrole brut brut est soumis à un processus de raffinage, de mélange et d’ingénierie où il est transformé en produits de plus grande valeur tels que le naphta de pétrole, l’essence, le carburant diesel et les bases en asphalte. mazout, kérosène, gaz de pétrole liquéfié, carburéacteur et mazouts. Il s'agit d'un processus critique qui doit être effectué avant que les composants en aval (tels que vous et moi et les entreprises industrielles) puissent réellement tirer profit du pétrole (essence, mazout ou diesel). Le pétrole en soi a peu de valeur pour le consommateur ou l'industrie. C’est uniquement grâce au processus de raffinage que nous obtenons un atout de valeur.

Sans ce processus de raffinement, nous devrions tous verser des barils de pétrole brut dans nos voitures, puis les laisser effectuer le processus de raffinage à notre place. De plus, cette exigence aurait considérablement réduit la valeur du pétrole pour le monde.

Et bien que je sache que cela semble stupide, c'est exactement ce que nous faisons en informatique. Nous donnons à nos utilisateurs l'accès aux données brutes et forçons chaque cas d'utilisation ou application à passer par le processus de raffinement des données pour obtenir quelque chose de valeur.

Forcer chaque cas d'utilisation analytique ou application à gérer ses propres données n'est pas seulement un très petit utilisateur convivial, mais cela réduit considérablement la valeur des données pour l’organisation. Si nous voulons vraiment servir les «consommateurs de données» de l'organisation, nous avons besoin d'un processus méthodique pour affiner, fusionner et transformer les données brutes en données de valeur supérieure – des données «sélectionnées».

L'économie des données conservées [19659015] Les données subissent la même transformation économique que le pétrole. Les données brutes doivent passer par un processus de raffinement (nettoyage, normalisation, normalisation, alignement, transformation, ingénierie, enrichissement) afin de créer des données «contrôlées» qui augmentent considérablement la valeur économique et l'applicabilité des données.

Les données? Selon Wikipedia:

«La conservation des données est l'organisation et l'intégration de données collectées à partir de différentes sources. Cela implique l'annotation, la publication et la présentation des données, de telle sorte que leur valeur soit conservée dans le temps et que les données restent disponibles pour être réutilisées et conservées. La conservation des données inclut tous les processus nécessaires à la création, la maintenance et la gestion de données avec principes et contrôlées, ainsi que la capacité d’ajouter de la valeur aux données. ”

C’est un bon début. Je développerai cette définition avec les caractéristiques supplémentaires suivantes:

  • Les données ont été investies de temps et d’efforts dans le but d’améliorer la propreté, l’exhaustivité, l’alignement, la précision, la granularité des données (le niveau auquel les données sont stockées), et temps de latence (lorsque les données sont disponibles pour l'analyse).
  • Les ensembles de données ont été enrichis de métadonnées, notamment des métadonnées descriptives, des métadonnées structurelles, des métadonnées administratives, des métadonnées de référence et des métadonnées statistiques.
  • Les données sont hautement régies pour assurer la disponibilité, la convivialité, l'intégrité, la sécurité et la conformité d'utilisation des données dans les différents cas d'utilisation de l'organisation.
  • Enfin, les données ont été cataloguées et indexées de manière à faciliter la recherche, la recherche, l'accès, la compréhension et la réutilisation des données. .

Le tableau ci-dessous présente les types de processus de raffinement dont les données structurées et non structurées auraient besoin pour convertir ces données brutes en données de plus grande valeur et plus utilisables.

Un livre blanc intitulé « Curation et maitrise des données évolutives » par le gourou de l'industrie, Michael Stonebraker, directeur technique de Tamr, indique que la curation des données est une combinaison de processus utilisés pour combiner des données. à partir de sources disparates dans un ensemble composite. Ces processus incluent:

  • Extraction de données à partir de systèmes de données source dans un lieu commun pour le traitement (data lake).
  • Transformation, normalisation et normalisation d'éléments de données. Par exemple, convertir des euros en dollars américains – pour nous assurer que nous comparons des pommes avec des pommes dans notre analyse.
  • Nettoyage des données. Par exemple, dans certains ensembles de données, 99 signifie réellement nul (N / A), ce qui, si vous vous trompez, fait des ravages dans vos calculs statistiques.
  • L'intégration de schéma et l'étiquetage de données associé – par exemple, votre «salaire» est quelqu'un else '“traitement”.
  • Consolidation d’entités (production de grappes d’enregistrements censés représenter la même entité). Par exemple, je pourrais être identifié comme étant le professeur Schmarzo dans un ensemble de données et Bill Schmarzo dans un second (ou dans l'ensemble de données dans lequel ma mère est en colère contre moi, je serais William Dean Schmarzo).
  • Réduction du cluster . Pour chaque cluster, un seul enregistrement doit être construit pour représenter les enregistrements de ce cluster. Ce processus est généralement considéré comme produisant un «disque d'or» pour chaque grappe.
  • Export (charge). Le tout composite est généralement exporté vers un référentiel de données.

En résumé, les données conservées sont des données brutes qui ont été rassemblées, nettoyées, alignées, normalisées et enrichies en métadonnées, puis cataloguées, indexées et gérées de manière à en assurer le bon usage. Les grandes entreprises essaient aujourd'hui d'intégrer les données brutes dans l'or des affaires en comprenant et en exploitant la valeur économique des données.

* My math. Prix ​​le 04/04/2019:

  • Prix brut du West Texas = 62 $ / baril
  • Prix VP MRX02 essence = 125 $ / 5 gallons ou 25 $ / gallon
    • 1 baril de VP MRX02 = 1 050 dollars / baril

La deuxième partie de cette série examine de manière plus approfondie la conservation et la gouvernance des données.

Cet article a paru à l'origine sur LinkedIn et est republié sur autorisation.

]




Source link