5 types de gaspillage de données coûteux et comment les éviter

Connaissez-vous quelqu'un qui a acheté beaucoup d'équipements d'exercice sophistiqués mais qui ne les utilise pas ? Il s'avère que l'équipement d'exercice n'offre pas beaucoup d'avantages lorsqu'il n'est pas utilisé.
Le même principe s'applique à la valorisation des données. Les organisations peuvent acquérir beaucoup de données, mais elles n'en tirent pas beaucoup de valeur. Il s'agit d'un problème répandu qui touche différents secteurs. On estime que près75% des données que les entreprises collectent restent inutilisées, et ainsi, la valeur n'est pas réalisée. Alors quel est le problème?
Dans l'exemple de la condition physique, le problème n'est généralement pas l'équipement d'exercice ; c'est un problème avec les habitudes de l'utilisateur. De même, obtenir de la valeur à partir des données n'est souvent pas un problème avec les données elles-mêmes. Au contraire, les problèmes découlent des limitations imposées par l'infrastructure des données et les pratiques de données qui bloquent une utilisation efficace et efficiente. En d'autres termes, de mauvais choix en matière d'infrastructure de données et d'habitudes de données peuvent entraîner un gaspillage de données.
Qu'est-ce que le gaspillage de données et pourquoi cela se produit-il ?
Fondamentalement, le gaspillage de données signifie rater une occasion de tirer parti des données ou payer trop cher pour acquérir, stocker et utiliser des données. Dans les systèmes à grande échelle, le gaspillage de données se présente sous de nombreuses formes. Certaines sont surprenantes, la plupart sont coûteuses et presque toutes sont évitables.
Pour éviter le gaspillage inutile de données dans votre organisation, vous devez d'abord le reconnaître. Ce qui suit décrit cinq manières courantes de gaspillage :
- Les données sont utilisées puis jetées
Une habitude courante en matière de données qui entraîne une opportunité manquée consiste à supposer que les données n'ont plus de valeur une fois qu'elles ont été utilisées à des fins particulières. Les données sont ingérées, traitées, transformées (peut-être pour un rapport spécifique ou pour être stockées dans une base de données traditionnelle), puis les données brutes ou partiellement traitées sont rejetées. Il n'est pas pratique d'enregistrer toutes vos données, mais il est important de réaliser que les données peuvent être utiles pour d'autres projets. Vous perdez cette valeur ajoutée lorsque vous jetez des données.
Ce type de gaspillage de données fait passer à côté dudeuxième avantage du projet . Par exemple, les projets d'IA et d'apprentissage automatique offrent une grande valeur potentielle, mais ils sont spéculatifs. Réduire le coût d'entrée en réutilisant les données et l'infrastructure déjà en place pour d'autres projets permet d'essayer de nombreuses approches différentes. Cela, à son tour, le rend plus susceptible de trouver ceux qui rapportent. Heureusement, les projets basés sur l'apprentissage utilisent généralement des données collectées à d'autres fins.
Il est également important de revenir aux données brutes pour poser de nouvelles questions et former de nouveaux modèles, d'autant plus que le monde est en constante évolution. Des fonctionnalités que vous ne pensiez pas utiles au début peuvent plus tard être exactement ce dont vous avez besoin. Vous avez perdu cette opportunité si les données ont été jetées.
- Vous avez des données mais ne les utilisez pas
Pourquoi les données précieuses sont-elles si souvent inutilisées ? L'une des raisons est que les gens ne savent pas où il se trouve ou même peut-être qu'il existe. Le manque d'annotations avec les bonnes métadonnées est un facteur contributif. Un autre est la mauvaise communication entre les projets ou les unités commerciales.
Un problème encore plus important est que les gens peuvent ne pas savoir comment voir la valeur des données. Reconnaîtrequelles données peuvent vous dire est une compétence acquise pour les personnes au-delà des simples scientifiques des données. De nouvelles approches sont développées pourcomprendre et utiliser des données non structurées, par exemple. Mais pour obtenir les avantages que les données ont à offrir, vous devez apprendre à les utiliser, tout comme vous devez savoir comment utiliser un équipement d'exercice avant qu'il ne puisse vous être utile.
Un autre facteur qui empêche les gens d'utiliser et de réutiliser pleinement les données est l'infrastructure de données nécessitant des outils spécialisés. Cette limitation rend difficile l'utilisation des données par différents types d'applications ou différents outils d'analyse et d'IA. De plus en plus, les gens recherchent des moyens deunifier leur couche de donnéeset avoir un accès flexible afin decréer un environnement axé sur les données.
- Vous avez des données mais pas là où elles sont nécessaires
Des données au mauvais endroit sont à peu près les mêmes que des données qui n'existent pas. Et "mauvais endroit" peut signifier plus d'une chose. Il se peut que les données soient détenues par une unité commerciale différente, ce qui rend difficile l'identification ou l'obtention des autorisations et de l'accès nécessaires pour partager ces données. Encore une fois, il y a un coût à ne pas utiliser les données parce qu'elles se trouvent ailleurs que vous ne le voudriez.
Une autre façon dont les données sont au mauvais endroit est dans un sens plus littéral : la géolocalisation. Pour les grands systèmes,mouvement de données majeurà partir dede la périphérie au centre de données ou entre des centres de données situés dans différentes villes ou pays est difficile, surtout si vous ne disposez pas d'une infrastructure de données conçue pour déplacer les données automatiquement. Le codage du mouvement des données dans les applications n'est pas une alternative adéquate, sauf dans les cas les plus simples. Pour éviter le gaspillage de données, vous devez disposer d'un moyen efficacedéplacer les données là où elles sont nécessaires . Sinon, le codage manuel du mouvement des données peut entraîner des problèmes supplémentaires, notamment une duplication indésirable.
- Votre système implique une duplication indésirable
Avoir une duplication inutile de grands ensembles de données est clairement un gaspillage des ressources utilisées pour stocker et accéder aux données, mais cela implique également un gaspillage d'autres manières. La duplication des données entraîne également une duplication des efforts, ce qui représente un coût supplémentaire. Et le problème n'est pas seulement une question d'un trop grand nombre de copies de données. Des ensembles de données approximativement dupliqués peuvent introduire une incertitude quant à la qualité des données. Les quasi-doublons soulèvent immédiatement la question de savoir qui fait autorité et pourquoi il y a des différences, ce qui conduit à la méfiance quant à la qualité des données.
Le mouvement des données codées à la main par de nombreux utilisateurs différents crée ses propres problèmes, car il est difficile de le faire avec précision à grande échelle. Les ensembles de données résultants peuvent introduire des variations non intentionnelles dans les données, même lorsqu'une copie verbatim est prévue.
Un autre problème connexe est la création de silos de données dans les grands systèmes. La réticence à partager des données indique souvent l'absence d'uncouche de données uniforme avec flexibilité dans l'accès aux données. Les données cloisonnées entraînent non seulement des coûts évitables, mais elles limitent également la compréhension et les informations que les scientifiques et les analystes des données peuvent tirer des données. Le cloisonnement et les capacités de découverte de données médiocres sont un gaspillage en raison du coût d'opportunité ajouté au coût du stockage redondant et des efforts dupliqués.
Un exemple particulier de gaspillage de données dû à une duplication inutile se produit lorsqu'une entreprise achète des données qui auraient pu être obtenues gratuitement. Ce gaspillage se produit parce que les gens peuvent ne pas savoir quelles options de données sont disponibles.
- Déconnexion entre producteurs et consommateurs de données
Un problème avecconnecter les producteurs de données et les consommateurs de données est que ceux qui produisent des données ou même ceux qui sont responsables de l'ingestion de données ne savent souvent pas comment elles seront utilisées. Cette déconnexion rend plus difficile pour ceux qui ont besoin de données de savoir où les trouver ou de savoir en quoi consistent réellement les données lorsqu'ils les trouvent. Les producteurs de données sont mis au défi d'annoter les données de manière appropriée sans savoir comment elles seront utilisées. Cette déconnexion entre les producteurs de données et les consommateurs de données conduit à un type classique de gaspillage de données dans le sens d'une opportunité manquée ou d'efforts et de dépenses inutiles nécessaires pour retrouver les données.
Réduire le gaspillage de données
Comment pouvez-vous résoudre les problèmes énumérés ci-dessus afin de réduire le gaspillage de données ? Vous devez développer unstratégie de données complètequi comprend une infrastructure de données unificatrice conçue pour prendre en charge un accès flexible aux données, le partage des données et un déplacement efficace des données.Structure de données HPE Ezmeral est une technologie de données définie par logiciel et indépendante du matériel utilisée pour stocker, gérer et déplacer des données à grande échelle dans une entreprise, de la périphérie au centre de données, sur site ou dans le cloud. En tant que tel, il sert de couche de données unificatrice qui prend en charge un large éventail d'applications et d'outils, invitant ainsi à la réutilisation des données. De plus, Data Fabric gère automatiquement le mouvement des données au niveau de la plate-forme.
D'autres solutions se présentent sous la forme de meilleuresutilisation des métadonnées pour faciliter la découverte et la compréhension des données, ainsi que de nouvelles initiatives de données pour mieux connecter les producteurs de données aux consommateurs de données. Une nouvelle initiative est laFondation Agstack , une infrastructure numérique open source pour l'agriculture. Un autre exemple estEspaces de donnéesune nouvelle plate-forme de services qui aide les producteurs et les consommateurs de données à intégrer divers ensembles de données, à améliorer la découverte des données, à accéder et à améliorer la gouvernance et la confiance des données.
Ces solutions peuvent vous aider à réduire le gaspillage de données coûteux et à mieux tirer parti des offres de données à valeur ajoutée. Faire un meilleur usage de votre équipement d'exercice, cependant, dépend toujours de vous.
Pour en savoir plus sur l'infrastructure de données qui peut vous aider à réduire le gaspillage de données, lisez cecipapier technique.
____________________________________
À propos d'Ellen Friedman

Ellen Friedman est une technologue principale chez HPE spécialisée dans l'analyse de données à grande échelle et l'apprentissage automatique. Ellen a travaillé chez MapR Technologies pendant sept ans avant d'occuper son poste actuel chez HPE, où elle a participé aux projets open source Apache Drill et Apache Mahout. Elle est co-auteur de plusieurs livres publiés par O'Reilly Media, notamment AI & Analytics in Production, Machine Learning Logistics et la série Practical Machine Learning.
Source link