Déverrouiller la valeur cachée des dark data

Les responsables informatiques qui cherchent à tirer une valeur commerciale des données que leurs entreprises collectent sont confrontés à une myriade de défis. La moins bien comprise est peut-être l’occasion manquée de ne pas tirer parti des données qui sont créées et souvent stockées, mais avec lesquelles on n’interagit que rarement.
Ces soi-disant « données obscures », du nom de la matière noire de la physique, sont des informations collectées de manière routinière dans le cadre de la conduite des affaires : elles sont générées par les employés, les clients et les processus commerciaux. Il est généré sous forme de fichiers journaux par les machines, les applications et les systèmes de sécurité. Ce sont des documents qui doivent être sauvegardés à des fins de conformité et des données sensibles qui ne devraient jamais être sauvegardées, mais qui le sont toujours.
Selon Gartner, la majorité de l’univers des informations de votre entreprise est composée de « données obscures », et de nombreuses entreprises ne savent même pas quelle quantité de ces données elles possèdent. Le stockage augmente les risques de conformité et de cybersécurité et, bien sûr, cela augmente également les coûts.
Déterminer quelles données obscures vous avez, où elles sont conservées et quelles informations s’y trouvent est une étape essentielle pour garantir que les parties précieuses de ces données obscures sont sécurisées et que celles qui ne doivent pas être conservées sont supprimées. Mais le véritable avantage de déterrer ces poches cachées de données peut être de les utiliser au profit de l’entreprise.
Mais extraire des données obscures n’est pas une tâche facile. Il est disponible dans une grande variété de formats, peut être complètement non formaté, enfermé dans des documents numérisés ou des fichiers audio ou vidéo, par exemple.
Voici un aperçu de la manière dont certaines organisations transforment les données obscures en opportunités commerciales et des conseils que les initiés du secteur ont pour les responsables informatiques qui cherchent à tirer parti des données obscures.
Audio codé des pilotes de voitures de course
Depuis cinq ans, Envision Racing collecte les enregistrements audio de plus de 100 courses de Formule E, chacune avec plus de 20 pilotes.
« Les flux radio sont disponibles sur des fréquences ouvertes pour que tout le monde puisse les écouter », déclare Amaresh Tripathy, leader mondial de l’analyse chez Genpact, une société de conseil qui a aidé Envision Racing à utiliser ces données.
Auparavant, les ingénieurs de course de l’équipe de course basée au Royaume-Uni avaient essayé d’utiliser ces transmissions audio en temps réel pendant les courses, mais les noms de code et les acronymes utilisés par les pilotes rendaient difficile de comprendre ce qui était dit et comment il pouvait être utilisé, comme comprendre ce que les autres pilotes disaient pourrait aider les pilotes d’Envision Racing dans leur stratégie de course, déclare Tripathy.
«Comme quand utiliser le mode d’attaque. Quand dépasser un conducteur. Quand appliquer les freins », dit-il.
Envision Racing collectait également des données de capteurs de ses propres voitures, telles que des pneus, des batteries et des freins, et achetait des données externes à des fournisseurs, telles que la vitesse du vent et les précipitations.
Genpact et Envision Racing ont travaillé ensemble pour libérer la valeur de ces flux de données, en utilisant le traitement du langage naturel pour créer des modèles d’apprentissage en profondeur pour les analyser. Le processus a pris six mois, de la préparation du pipeline de données à l’ingestion des données, au filtrage du bruit et à l’élaboration de conversations significatives.
Tripathy dit que les humains mettent cinq à dix secondes pour comprendre ce qu’ils écoutent, un retard qui a rendu les communications radio inutiles. Désormais, grâce aux prédictions et aux informations du modèle d’IA, ils peuvent désormais répondre en une à deux secondes.
En juillet, lors du championnat du monde de Formule E ABB FIA à New York, l’équipe Envision Racing a pris les première et troisième places, un résultat que Tripathy attribue à l’utilisation de ce qui était auparavant des données sombres.
L’or des données sombres : les données générées par l’homme
Les fichiers audio d’Envision Racing sont un exemple de données sombres générées par des humains, destinées à être consommées par d’autres humains, et non par des machines. Ce type de données sombres peut être extrêmement utile pour les entreprises, déclare Kon Leong, co-fondateur et PDG de ZL Technologies, un fournisseur de plate-forme d’archivage de données.
« Il est incroyablement puissant pour comprendre chaque élément du côté humain de l’entreprise, y compris la culture, la performance, l’influence, l’expertise et l’engagement », dit-il. « Les employés partagent chaque jour des quantités absolument énormes d’informations et de connaissances numériques, mais jusqu’à présent, elles ont été largement inexploitées. »
Les informations contenues dans les e-mails, les messages et les fichiers peuvent aider les organisations à obtenir des informations telles que les personnes les plus influentes au sein de l’organisation. « Quatre-vingt pour cent du temps de l’entreprise est consacré à la communication. Pourtant, l’analytique traite souvent des données qui ne reflètent que 1 % de notre temps passé », déclare Leong.
Le traitement de données non structurées générées par l’homme est un défi unique. Les entrepôts de données ne sont généralement pas configurés pour gérer ces communications, par exemple. De plus, la collecte de ces communications peut créer de nouveaux problèmes pour les entreprises, liés à la conformité, à la confidentialité et à la découverte juridique.
« Ces capacités de gouvernance ne sont pas présentes dans le concept actuel de lac de données, et en fait, en collectant des données dans un lac de données, vous créez un autre silo qui augmente les risques de confidentialité et de conformité », déclare Leong.
Au lieu de cela, les entreprises peuvent également laisser ces données là où elles résident actuellement, en ajoutant simplement une couche d’indexation et de métadonnées pour la recherche. Laisser les données en place les maintiendra également dans les structures de conformité existantes, dit-il.
Une gouvernance efficace est essentielle
Une autre approche pour gérer les données obscures de valeur et d’origine douteuses consiste à commencer par la traçabilité.
« C’est une évolution positive dans l’industrie que les données obscures soient désormais reconnues comme une ressource inexploitée qui peut être exploitée », déclare Andy Petrella, auteur de Fondamentaux de l’observabilité des données, actuellement disponible en version préliminaire chez O’Reilly. Petrella est également le fondateur du fournisseur d’observabilité des données Kensu.
« Le défi de l’utilisation des données sombres est le faible niveau de confiance dans celles-ci », dit-il, en particulier autour de l’endroit et de la manière dont les données sont collectées. « L’observabilité peut rendre le lignage des données transparent, donc traçable. La traçabilité permet des contrôles de la qualité des données qui conduisent à la confiance dans l’utilisation de ces données pour former des modèles d’IA ou agir sur l’intelligence qu’elles apportent.
Chuck Soha, directeur général de StoneTurn, une société de conseil mondiale spécialisée dans les questions de réglementation, de risque et de conformité, convient que l’approche commune pour s’attaquer aux données sombres – tout jeter dans un lac de données – présente des risques importants.
Cela est particulièrement vrai dans le secteur des services financiers, dit-il, où les entreprises envoient des données dans des lacs de données depuis des années. « Dans une entreprise typique, le service informatique place toutes les données disponibles à sa disposition en un seul endroit avec quelques métadonnées de base et crée des processus à partager avec les équipes commerciales », explique-t-il.
Cela fonctionne pour les équipes commerciales qui disposent en interne des talents d’analyse nécessaires ou qui font appel à des consultants externes pour des cas d’utilisation spécifiques. Mais pour la plupart, ces initiatives ne réussissent que partiellement, dit Soha.
« Les DSI sont passés de l’ignorance de ce qu’ils ne savent pas à la connaissance de ce qu’ils ne savent pas », dit-il.
Au lieu de cela, les entreprises devraient commencer par la gouvernance des données pour comprendre quelles données il y a et quels problèmes elles pourraient avoir, la qualité des données en tête parmi elles.
« Les parties prenantes peuvent décider de le nettoyer et de le normaliser, ou simplement de recommencer avec de meilleures pratiques de gestion de l’information », déclare Soha, ajoutant qu’investir dans l’extraction d’informations à partir de données contenant des informations incohérentes ou contradictoires serait une erreur.
Soha conseille également de relier les points entre les bonnes données opérationnelles déjà disponibles au sein des unités commerciales individuelles. Comprendre ces relations peut créer des informations rapides et utiles qui pourraient ne pas nécessiter d’examiner immédiatement des données sombres, dit-il. « Et cela pourrait également identifier les lacunes qui pourraient donner la priorité aux données sombres où commencer à chercher pour combler ces lacunes. »
Enfin, dit-il, l’IA peut être très utile pour donner un sens aux données non structurées qui restent. « En utilisant des techniques d’apprentissage automatique et d’IA, les humains peuvent examiner aussi peu que 1% des données sombres et classer leur pertinence », dit-il. « Ensuite, un modèle d’apprentissage par renforcement peut produire rapidement des scores de pertinence pour les données restantes afin de hiérarchiser les données à examiner de plus près. »
Les solutions courantes basées sur l’IA pour le traitement des données sombres incluent Textract d’Amazon, Azure Cognitive Services de Microsoft et Datacap d’IBM, ainsi que les API Cloud Vision, Document, AutoML et NLP de Google.
Dans le cadre du partenariat de Genpact avec Envision Racing, Genpact a codé les algorithmes d’apprentissage automatique en interne, explique Tripathy. Cela nécessitait une connaissance de Docker, Kubernetes, Java et Python, ainsi que du développement d’algorithmes de NLP, d’apprentissage en profondeur et d’apprentissage automatique, dit-il, ajoutant qu’un architecte MLOps a géré l’ensemble du processus.
Malheureusement, ces compétences sont difficiles à obtenir. Dans un rapport publié l’automne dernier par Splunk, seuls 10 à 15 % des plus de 1 300 décideurs informatiques et commerciaux interrogés ont déclaré que leurs organisations utilisaient l’IA pour résoudre le problème des données obscures. Le manque de compétences nécessaires était un obstacle majeur à l’utilisation des données obscures, juste derrière le volume des données elles-mêmes.
Un problème (et une opportunité) en hausse
En attendant, les données obscures restent une mine croissante de risques et d’opportunités. Les estimations de la part des données d’entreprise qui sont obscures varient de 40 % à 90 %, selon l’industrie.
Selon un Rapport de juillet d’Enterprise Strategy Group, et sponsorisé par Quest, 47 % de toutes les données sont des données sombres, en moyenne, avec un cinquième des répondants affirmant que plus de 70 % de leurs données sont des données sombres. L’enquête de Splunk a montré des résultats similaires, avec 55 % de toutes les données d’entreprise, en moyenne, étant des données sombres, et un tiers des personnes interrogées affirmant que 75 % ou plus des données de leur organisation sont sombres.
Et la situation est susceptible de s’aggraver avant de s’améliorer, puisque 60 % des personnes interrogées déclarent que plus de la moitié des données de leur organisation ne sont pas du tout saisies et qu’une grande partie n’est même pas comprise. Au fur et à mesure que ces données sont trouvées et stockées, la quantité de données sombres va continuer à augmenter.
Il est grand temps que les DSI élaborent un plan sur la manière de les gérer, dans le but de tirer le meilleur parti de toutes les données sombres qui s’avèrent prometteuses pour créer une nouvelle valeur pour l’entreprise.
Source link