Fermer

janvier 31, 2022

Au-delà du chiffrement : protégez les données sensibles à l'aide de l-diversity


Les entreprises et les organisations détiennent désormais plus d'informations personnelles que jamais auparavant. Le stockage d'un grand nombre de données peut être utile de diverses manières, telles que la création de rapports et l'analyse, ce qui peut exposer des informations personnelles liées aux données analysées. Lorsque des données sont transmises ou stockées, le cryptage est utile pour les protéger, tandis que l'anonymisation est importante pour préserver les données pendant leur utilisation ou leur diffusion. L'anonymisation est mieux adaptée aux ensembles de données plus petits, tandis que le chiffrement fonctionne mieux avec les plus grands. À des fins de conformité, une approche pratique peut consister à combiner le chiffrement pour les données restantes et en transit et l'anonymisation des données en cours d'utilisation.

L'objectif de l'anonymisation des données n'est pas simplement d'obscurcir ; il est essentiel de ne pas permettre de ré-identifier les données après l'anonymisation. Cela implique de prendre en compte des paramètres tels que la quantité de données, le type d'informations qu'elles contiennent et le risque d'identification lors de l'anonymisation. Pour la plupart des entreprises, l'objectif sera d'anonymiser les données sensibles telles que PHI/PHI. Dans un précédent articlej'ai parlé de l'utilisation du k-anonymat pour protéger les données sensibles. Cependant, des recherches ont remis en question l'efficacité du k-anonymat, en particulier pour les grands ensembles de données.

Faiblesses potentielles du k-anonymat

Yves-Alexandre de Montjoye et al. (2013) ont constaté que le risque de réidentification d'un individu à partir d'une base de données anonyme peut être approximé en utilisant une fonction de son changement "relatif" dans le contenu de l'information, ce qui signifie que plus d'éléments de son information sont révélés, plus il est probable qu'il soit " réidentifié".

Selon une recherche menée en 2014 par Mark Yatskar, l'k-anonymisation peut être facilement décomposée. De nombreuses personnes identifiées dans l'ensemble de données sur les téléphones portables créé par Yatskar et son équipe ont été réidentifiées.

Dans une étude menée en 2015 par Vanessa Teague, les transactions par carte de crédit de 1,1 million de personnes en Australie ont été rendues publiques. Pour des raisons de confidentialité, les données ont été anonymisées à l'aide d'une technique qui supprime le nom, l'adresse et les numéros de compte de chaque personne. Si quatre détails supplémentaires sur un individu, tels que le lieu où un achat a été effectué et l'heure à laquelle il a eu lieu, étaient connus, les chercheurs ont découvert que 90 % des utilisateurs de cartes de crédit pouvaient être réidentifiés.

Les chercheurs ont pu développer un nouvel algorithme qui n'avait pas les mêmes défauts que le premier. L'équipe a dévoilé une nouvelle méthode d'anonymisation appelée "l-diversity anonymization" dans cette étude. Ils ont constaté que leur technique "réduit la traçabilité des transactions de plus d'un ordre de grandeur" par rapport aux autres techniques d'anonymisation. Alors, qu'est-ce que la l-diversité ?

Qu'est-ce que la l-diversité ?

Data Intelligence – L'avenir du Big Data
L'avenir du Big Data

Avec quelques conseils, vous pouvez créer une plate-forme de données adaptée aux besoins de votre organisation et tirer le meilleur parti de votre capital de données. ne peut pas réidentifier un enregistrement spécifique. Cependant, il est possible d'extrapoler des informations sensibles sur un individu sans nécessairement accéder à ses dossiers spécifiques. L'article original sur la l-diversité s'ouvre sur un exemple très simple. En fait, les images de l'k-exemple de l'anonymat ont été tirées de ce même article.

L Diversité
Voici comment les auteurs envisageaient deux attaques différentes : l'homogénéité et les connaissances de base. Pouvez-vous identifier la condition dont souffre un homme de 31 ans qui vit dans le code postal 13053 ? Les enregistrements 9 à 12 partagent tous ces critères et ont tous le même diagnostic : cancer. Il y a un manque de diversité dans les informations sensibles malgré le 4-anonymat dans l'ensemble de données. Ceci est un exemple d'attaque d'homogénéité.

Supposons maintenant que l'attaquant ait des connaissances de base. Essayez d'identifier le diagnostic d'une femme japonaise de 21 ans également à partir du code postal 13053. Il existe deux options maladie cardiaque ou infection virale. Cependant, étant donné que les Japonais ont une faible incidence documentée de maladies cardiaques, vous pouvez affirmer avec un haut degré de confiance que la personne souffre d'une infection virale.

Avantages de la l-diversité.

Les auteurs comparent la table originale de 4-anonymat avec leur table de 3-diversité pour montrer qu'elle ne souffre pas des mêmes attaques que k-l'anonymat subit tout en empêchant la réidentification.

L Diversité2

Généraliser les données, ou les rendre moins spécifiques, est l'une des trois manières d'atteindre la l-diversité. Cela se fait dans la colonne Age. Vous pouvez également supprimer les données (ce qui ne fonctionne pas toujours bien comme nous l'avons vu au début de l'article). Enfin, et le plus souvent, vous pouvez modifier les données. Vous pouvez remplacer les données par une valeur aléatoire en dehors de la distribution standard des valeurs. Cela permet de conserver la même distribution globale des valeurs pour la colonne, mais la valeur de la ligne sera erronée. Ou vous pouvez simplement hacher les données.

Problèmes potentiels avec la l-diversité

Lorsque vous parlez à un chercheur, il vous confirmera que la l-diversité est plus correcte que la k-anonymat. Cependant, il existe très peu d'implémentations de cet algorithme en cours d'utilisation. Une grande partie de l'utilité de l'ensemble de données est perdue. Peut-être trop de perte juste deux résoudre deux problèmes avec k-anonymat. Et vous obtenez deux autres vecteurs d'attaque : l'asymétrie et la similarité. Si vous avez trois attributs : cancer du poumon, cancer du foie et cancer de l'estomac dans un ensemble de données, vous avez une diversité satisfaisante. Mais un intrus peut identifier qu'un sujet a un cancer. Dans une crise d'asymétrie, il peut y avoir un groupe où la moitié des patients ont une maladie cardiaque et l'autre moitié non. Si un intrus identifie la cible comme appartenant à ce groupe, il peut en déduire une probabilité de 50 % d'une maladie cardiaque, ce qui est une probabilité bien supérieure à la moyenne.

Il existe une troisième option, t– proximité, qui résout les attaques de biais et de similarité. Nous en discuterons dans un prochain article.

À propos de l'auteur <!– :   dcallaghan, Architecte de solutions–>

En tant qu'architecte de solutions chez Perficient, j'apporte vingt ans d'expérience en développement et je travaille actuellement avec Hadoop/Spark, blockchain et cloud, codage en Java, Scala et Go. Je suis certifié et travaille beaucoup avec Hadoop, Cassandra, Spark, AWS, MongoDB et Pentaho. Plus récemment, j'ai apporté des solutions intégrées de blockchain (en particulier Hyperledger et Ethereum) et de big data dans le cloud en mettant l'accent sur l'intégration de produits de données modernes tels que HBase, Cassandra et Neo4J en tant que référentiel hors blockchain. cet auteur




Source link