11 sombres secrets de la gestion des données

Certains appellent les données le nouveau pétrole. D’autres l’appellent le nouvel or. Les philosophes et les économistes peuvent discuter de la qualité de la métaphore, mais il ne fait aucun doute que l’organisation et l’analyse des données sont une entreprise vitale pour toute entreprise qui cherche à tenir la promesse d’une prise de décision basée sur les données.
Et pour ce faire, une solide stratégie de gestion des données est essentielle. Englobant la gouvernance des données, les opérations de données, l’entreposage de données, l’ingénierie des données, l’analyse des données, science des donnéeset plus encore, la gestion des données, lorsqu’elle est bien faite, peut fournir aux entreprises de tous les secteurs un avantage concurrentiel.
La bonne nouvelle est que de nombreuses facettes de la gestion des données sont bien comprises et reposent sur des principes solides qui ont évolué au fil des décennies. Par exemple, ils peuvent ne pas être faciles à appliquer ou simples à comprendre, mais grâce aux scientifiques et aux mathématiciens, les entreprises disposent désormais d’une gamme de cadres logistiques pour analyser les données et tirer des conclusions. Plus important encore, nous avons également des modèles statistiques qui dessinent des barres d’erreur qui délimitent les limites de notre analyse.
Mais malgré tout le bien qui ressort de l’étude de la science des données et des diverses disciplines qui l’alimentent, nous avons parfois encore du mal à nous gratter la tête. Les entreprises se heurtent souvent aux limites du domaine. Certains des paradoxes sont liés aux défis pratiques de la collecte et de l’organisation d’autant de données. D’autres sont philosophiques, testant notre capacité à raisonner sur des qualités abstraites. Et puis il y a la montée des préoccupations en matière de confidentialité autour de tant de données collectées en premier lieu.
Voici quelques-uns des sombres secrets qui font de la gestion des données un tel défi pour de nombreuses entreprises.
Les données non structurées sont difficiles à analyser
Une grande partie des données stockées dans les archives de l’entreprise n’ont pas beaucoup de structure du tout. Un de mes amis aspire à utiliser une IA pour rechercher dans les notes textuelles prises par le personnel du centre d’appels de sa banque. Ces phrases peuvent contenir des informations susceptibles d’aider à améliorer les prêts et les services de la banque. Peut-être. Mais les notes ont été prises par des centaines de personnes différentes avec des idées différentes sur ce qu’il fallait écrire à propos d’un appel donné. De plus, les membres du personnel ont des styles et des capacités d’écriture différents. Certains n’écrivaient pas grand-chose. Certains écrivent trop d’informations sur leurs appels donnés. Le texte en lui-même n’a pas beaucoup de structure pour commencer, mais lorsque vous avez une pile de textes écrits par des centaines ou des milliers d’employés sur des dizaines d’années, la structure en place peut être encore plus faible.
Même les données structurées sont souvent non structurées
Les bons scientifiques et administrateurs de bases de données guident les bases de données en spécifiant le type et la structure de chaque champ. Parfois, au nom d’encore plus de structure, ils limitent les valeurs d’un champ donné à des entiers dans certaines plages ou à des choix prédéfinis. Même dans ce cas, les personnes qui remplissent les formulaires stockés dans la base de données trouvent des moyens d’ajouter des plis et des problèmes. Parfois, les champs sont laissés vides. D’autres personnes insèrent un tiret ou les initiales « na » lorsqu’elles pensent qu’une question ne s’applique pas. Les gens épellent même leur nom différemment d’une année à l’autre, d’un jour à l’autre ou même d’une ligne à l’autre sur le même formulaire. Les bons développeurs peuvent détecter certains de ces problèmes grâce à la validation. De bons scientifiques des données peuvent également réduire une partie de cette incertitude grâce au nettoyage. Mais il est toujours exaspérant que même les tableaux les plus structurés aient des entrées douteuses – et que ces entrées douteuses puissent introduire des inconnues et même des erreurs d’analyse.
Les schémas de données sont soit trop stricts, soit trop lâches
Peu importe à quel point les équipes de données essaient d’énoncer les contraintes de schéma, les schémas résultants pour définir les valeurs dans les différents champs de données sont soit trop stricts, soit trop lâches. Si l’équipe de données ajoute des contraintes strictes, les utilisateurs se plaignent que leurs réponses ne se trouvent pas sur la liste restreinte des valeurs acceptables. Si le schéma est trop accommodant, les utilisateurs peuvent ajouter des valeurs étranges avec peu de cohérence. Il est presque impossible d’ajuster le schéma correctement.
Les lois sur les données sont très strictes
Les lois sur la vie privée et la protection des données sont fortes et ne font que se renforcer. Entre des réglementations telles que le GDPR, HIPPA et une douzaine d’autres, il peut être très difficile d’assembler des données, et encore plus dangereux de les laisser traîner en attendant qu’un pirate informatique entre par effraction. Dans de nombreux cas, il est plus facile de dépenser plus d’argent pour les avocats que pour les programmeurs ou les data scientists. Ces maux de tête expliquent pourquoi certaines entreprises se débarrassent simplement de leurs données dès qu’elles peuvent s’en débarrasser.
Les coûts de nettoyage des données sont énormes
De nombreux scientifiques des données confirmeront que 90 % du travail consiste simplement à collecter les données, à les mettre sous une forme cohérente et à traiter les trous ou les erreurs sans fin. La personne qui détient les données dira toujours : « Tout est dans un CSV et prêt à être utilisé ». Mais ils ne mentionnent pas les champs vides ou les erreurs de caractérisation. Il est facile de passer 10 fois plus de temps à nettoyer les données à utiliser dans un projet de science des données qu’à simplement démarrer la routine en R ou Python pour effectuer l’analyse statistique.
Les utilisateurs se méfient de plus en plus de vos pratiques en matière de données
Les utilisateurs finaux et les clients se méfient de plus en plus des pratiques de gestion des données d’une entreprise, et certains algorithmes d’IA et leur utilisation ne font qu’amplifier la peur, laissant de nombreuses personnes très inquiètes de ce qui arrive aux données capturant chacun de leurs mouvements. Ces craintes alimentent la réglementation et accrochent souvent les entreprises et même les scientifiques des données bien intentionnés dans les relations publiques. Non seulement cela, mais les gens brouillent délibérément la collecte de données avec de fausses valeurs ou de mauvaises réponses. Parfois, la moitié du travail consiste à traiter avec des partenaires et des clients malveillants.
L’intégration de données externes peut être fructueuse et entraîner un désastre
C’est une chose pour une entreprise de s’approprier les données qu’elle recueille. Le service informatique et les scientifiques des données ont le contrôle sur cela. Mais des entreprises de plus en plus agressives découvrent comment intégrer leurs informations locales avec des données tierces et les vastes mers d’informations personnalisées flottant sur Internet. Certains outils promettent ouvertement d’aspirer des données sur chaque client pour construire des dossiers personnalisés sur chaque achat. Oui, ils utilisent les mêmes mots que les agences d’espionnage qui poursuivent les terroristes pour suivre vos achats de restauration rapide et vos cotes de crédit. Faut-il s’étonner que les gens s’inquiètent et paniquent ?
Les régulateurs sévissent contre l’utilisation des données
Personne ne sait quand une analyse intelligente des données franchit une ligne, mais une fois que c’est le cas, les régulateurs se présentent. Dans un exemple récent du Canada, le gouvernement a exploré comment certaines boutiques de beignets suivaient des clients qui achetaient également chez des concurrents. Une nouvelle récente Libération a annoncé: « L’enquête a révélé que le contrat de Tim Hortons avec un fournisseur de services de localisation tiers américain contenait un langage si vague et permissif qu’il aurait permis à l’entreprise de vendre des données de localisation » anonymisées « à ses propres fins. » Et pour quoi? Pour vendre plus de beignets ? Les régulateurs prêtent de plus en plus attention à tout ce qui implique des informations personnelles.
Votre schéma de données n’en vaut peut-être pas la peine
Nous imaginons qu’un algorithme brillant peut tout rendre plus efficace et plus rentable. Et parfois, un tel algorithme est effectivement possible, mais le prix peut aussi être trop élevé. Par exemple, les consommateurs – et même les entreprises – remettent de plus en plus en question la valeur du marketing ciblé qui découle de systèmes élaborés de gestion des données. Certains soulignent que nous voyons souvent des publicités pour quelque chose que nous avons déjà acheté parce que les trackers publicitaires n’ont pas compris que nous ne sommes plus sur le marché. Le même sort attend souvent d’autres stratagèmes astucieux. Parfois, une analyse rigoureuse des données identifie l’usine la moins performante, mais cela n’a pas d’importance car l’entreprise a signé un bail de 30 ans sur le bâtiment. Les entreprises doivent être prêtes à faire face à la probabilité que tout ce génie de la science des données produise une réponse qui ne soit pas acceptable.
En fin de compte, les décisions relatives aux données ne sont souvent que des appels de jugement
Les nombres peuvent offrir beaucoup de précision, mais la façon dont les humains les interprètent est souvent ce qui compte. Après toute l’analyse des données et la magie de l’IA, la plupart des algorithmes nécessitent de décider si une valeur est supérieure ou inférieure à un seuil. Parfois, les scientifiques veulent une valeur p inférieure à 0,05. Parfois, un flic cherche à donner des contraventions aux voitures dépassant de 20 % la limite de vitesse. Ces seuils ne sont souvent que des valeurs arbitraires. Malgré toute la science et les mathématiques qui peuvent être appliquées aux données, de nombreux processus « axés sur les données » contiennent plus de zones grises que nous ne voudrions le croire, laissant les décisions à l’instinct malgré toutes les ressources dont une entreprise peut disposer. mettre dans ses pratiques de gestion des données.
Les coûts de stockage des données explosent
Oui, les disques durs ne cessent de grossir et le prix par téraoctet ne cesse de baisser, mais les programmeurs collectent des bits plus rapidement que les prix ne peuvent baisser. Les appareils de l’Internet des objets (IoT) continuent de télécharger des données et les utilisateurs s’attendent à parcourir une riche collection de ces octets pour toujours. En attendant, les responsables de la conformité et les régulateurs demandent de plus en plus de données en cas de futurs audits. Ce serait une chose si quelqu’un regardait réellement certains éléments, mais nous n’avons que peu de temps dans la journée. Le pourcentage de données auxquelles on accède à nouveau ne cesse de baisser. Pourtant, le prix du stockage du bundle en expansion ne cesse d’augmenter.
Source link