Fermer

septembre 17, 2022

Normalisation des données : définir, tester et transformer


Alors que les organisations s’orientent vers l’établissement d’une culture des données dans l’ensemble de l’entreprise, nombre d’entre elles ont encore du mal à optimiser leurs données. Extraire des données de sources disparates et obtenir des formats et des représentations variés de ce qui est censé être la même information – provoque de sérieux obstacles dans votre parcours de données.

Les équipes subissent des retards et des erreurs lors de l’exécution de leurs opérations de routine ou de l’extraction d’informations à partir d’ensembles de données. De tels problèmes obligent les entreprises à introduire un mécanisme de standardisation des données – qui garantit que les données sont présentes dans une vue cohérente et uniforme dans toute l’organisation.

Examinons plus en détail le processus de normalisation des données : ce qu’il signifie, les étapes qu’il implique et comment vous pouvez obtenir une vue standard des données dans votre entreprise.

Qu’est-ce que la normalisation des données ?

En termes simples, la normalisation des données est le processus de transformation des valeurs de données d’un format incorrect à un format correct. Pour permettre une vue des données standardisée, uniforme et cohérente dans toute l’organisation, les valeurs des données doivent être conformes à la norme requise, dans le contexte des champs de données auxquels elles appartiennent.

Exemple d’erreurs de standardisation des données

Par exemple, l’enregistrement d’un même client résidant à deux endroits différents ne doit pas contenir de divergences dans les prénoms et noms, l’adresse e-mail, le numéro de téléphone et l’adresse résidentielle :

NomAdresse e-mailNuméro de téléphoneDate de naissanceLe genreAdresse résidentielle
Jean Oneeljohn.neal@gmail.com516465949414/2/1987M11400 W Olympique BL # 200
Source 1
PrénomNom de familleAdresse e-mailNuméro de téléphoneDate de naissanceLe genreAdresse résidentielle
JohnO’Nealjohn.neal_gmail.com+1 516-465-949414/02/1987Homme11 400 W Olympique 200
Source 2

Dans l’exemple ci-dessus, vous pouvez voir les types d’incohérences suivants :

  1. De construction: La première source couvre le nom du client en tant que champ unique, tandis que la seconde le stocke sous la forme de deux champs : prénom et nom de famille.
  2. Motif: La première source a un modèle d’e-mail valide appliqué sur le champ de l’adresse e-mail, tandis que le second manque visiblement le @ symbole.
  3. Type de données: La première source n’autorise que les chiffres dans le champ Numéro de téléphone, tandis que la seconde a un champ de type chaîne qui contient également des symboles et des espaces.
  4. Format: La première source a la date de naissance au format MM/JJ/AAAA, tandis que la seconde l’a au format JJ/MM/AAAA.
  5. Valeur du domaine : La première source permet de stocker la valeur Sexe sous la forme M ou F, tandis que la seconde source stocke la forme complète – Homme ou Femme.

De telles incohérences de données vous conduisent à commettre de graves erreurs qui peuvent faire perdre beaucoup de temps, d’argent et d’efforts à votre entreprise. C’est pourquoi la mise en place d’un mécanisme de bout en bout pour normalisation des données est crucial pour maintenir l’hygiène de vos données.

Comment standardiser les données ?

La normalisation des données est un processus simple en quatre étapes. Mais selon la nature des incohérences présentes dans vos données et ce que vous essayez d’atteindre, les méthodes et techniques utilisées pour la normalisation peuvent varier. Ici, nous présentons une règle empirique générique que toute organisation peut utiliser pour surmonter ses erreurs de normalisation.

  1. Définir ce qu’est la norme

Pour atteindre n’importe quel état, vous devez d’abord définir ce qu’est réellement l’état. La première étape de tout processus de normalisation des données consiste à identifier ce qui doit être réalisé. La meilleure façon de savoir ce dont vous avez besoin est de comprendre les exigences de l’entreprise. Vous devez analyser vos processus métier pour voir quelles données sont requises et dans quel format. Cela vous aidera à établir une base de référence pour vos besoins en données.

Une définition de norme de données permet d’identifier :

  • Les actifs de données cruciaux pour votre processus métier,
  • Les champs de données nécessaires de ces actifs,
  • Le type de données, le format et le modèle auxquels leurs valeurs doivent se conformer,
  • La plage de valeurs acceptables pour ces champs, etc.
  1. Tester les ensembles de données par rapport à la norme définie

Une fois que vous avez une définition standard, l’étape suivante consiste à tester les performances de vos ensembles de données par rapport à celles-ci. Une façon d’évaluer cela est d’utiliser profilage des données des outils qui génèrent des rapports complets et trouvent des informations telles que le pourcentage de valeurs conformes aux exigences du champ de données, telles que :

  • Les valeurs respectent-elles le type et le format de données requis ?
  • Les valeurs se situent-elles en dehors de la plage acceptable ?
  • Les valeurs utilisent-elles des formes abrégées, telles que des abréviations et des surnoms ?
  • Sommes adresses normalisées au besoin – comme Normalisation USPS pour les adresses américaines ?
  1. Transformer des valeurs non conformes

Il est enfin temps de transformer les valeurs qui ne sont pas conformes à la norme définie. Examinons les techniques de transformation de données courantes utilisées.

  • Analyse des données – Certains champs de données doivent d’abord être analysés pour obtenir les composants de données nécessaires. Par exemple, analysez le champ de nom pour séparer le prénom, le deuxième prénom et le nom de famille, ainsi que tout préfixe ou suffixe présent dans la valeur.
  • Conversion de type et de format de données – Vous devrez peut-être supprimer les caractères non conformes lors de la conversion, par exemple, supprimer les symboles et les alphabets d’un numéro de téléphone composé uniquement de chiffres.
  • Appariement et validation de modèles – La conversion de modèle est effectuée en configurant une expression régulière pour le modèle. Pour les valeurs d’adresse e-mail conformes à une expression régulière, elles doivent être analysées et transformées dans le modèle défini. une adresse e-mail peut être validée en utilisant la regex :

^[a-zA-Z0-9+_.-]+@[a-zA-Z0-9.-]+$
  • Extension d’abréviation – Les noms de société, les adresses et les noms de personnes contiennent souvent des formes abrégées qui peuvent amener votre ensemble de données à contenir différentes représentations des mêmes informations. Par exemple, vous devrez peut-être étendre les états du pays, comme convertir NY en New York.
  • Suppression du bruit et correction orthographique – Certains mots n’ajoutent pas vraiment de sens à une valeur, et introduisent plutôt beaucoup de bruit dans un jeu de données. Ces valeurs peuvent être identifiées dans un ensemble de données en l’exécutant sur un dictionnaire contenant ces mots, en les signalant et en décidant lesquels supprimer définitivement. Le même processus peut être exécuté pour trouver les fautes d’orthographe et les fautes de frappe.

  1. Retester l’ensemble de données par rapport à la norme définie

Dans la dernière étape, l’ensemble de données transformé est retesté par rapport à la norme définie pour connaître le pourcentage d’erreurs de normalisation des données qui ont été corrigées. Pour les erreurs qui subsistent encore dans votre ensemble de données, vous pouvez ajuster ou reconfigurer vos méthodes et réexécuter les données tout au long du processus.

Emballer

La quantité de données générées aujourd’hui – et la variété des outils et des technologies utilisés pour capturer ces données – amènent les entreprises à faire face à l’épouvantable gâchis des données. Ils ont tout ce dont ils ont besoin mais ne savent pas vraiment pourquoi les données ne sont pas présentes sous une forme acceptable et utilisable. L’adoption d’outils de normalisation des données peut aider à rectifier ces incohérences et permettre une culture des données indispensable dans votre organisation.




Source link