Fermer

janvier 18, 2022

Au-delà du chiffrement : protégez les données sensibles à l'aide du k-anonymat


Les entreprises et les organisations détiennent désormais plus d'informations personnelles que jamais auparavant. Le stockage d'un grand nombre de données peut être utile de diverses manières, telles que la création de rapports et l'analyse, ce qui peut exposer des informations personnelles liées aux données analysées. Lorsque des données sont transmises ou stockées, le cryptage est utile pour les protéger, tandis que l'anonymisation est importante pour préserver les données pendant leur utilisation ou leur diffusion. L'anonymisation est mieux adaptée aux ensembles de données plus petits, tandis que le chiffrement fonctionne mieux avec les plus grands. À des fins de conformité, une approche pratique peut consister à combiner le chiffrement pour les données restantes et en transit et l'anonymisation des données en cours d'utilisation.

L'objectif de l'anonymisation des données n'est pas simplement d'obscurcir ; il est essentiel de ne pas permettre de ré-identifier les données après l'anonymisation. Cela implique de prendre en compte des paramètres tels que la quantité de données, le type d'informations qu'elles contiennent et le risque d'identification lors de l'anonymisation. Pour la plupart des entreprises, l'objectif sera d'anonymiser les données sensibles telles que PHI/PHI.

Dissimulation des données

En 1997, MassGov a compilé et rendu publique une base de données des visites à l'hôpital par les employés de l'État à des fins de recherche. Toutes les colonnes liées aux informations personnelles ont été supprimées, telles que le nom, le numéro de téléphone, l'adresse, le numéro de sécurité sociale, etc. Les identifiants génériques tels que le sexe, la date de naissance et le code postal ont été conservés à des fins de regroupement et d'analyse. Le gouverneur a annoncé que ces mesures protégeaient suffisamment la vie privée des employés de l'État.

À moins, bien sûr, qu'un doctorant puisse trouver 20 $.

Latanya Sweeney a acheté des registres publics des électeurs du Massachusetts, qui comprenaient les noms, adresses, code postal codes et dates de naissance. Le jeu d'enregistrements comprenait les coordonnées du gouverneur. Étant donné qu'un seul enregistrement dans les données de l'hôpital satisfaisait à tous les critères de sexe, de code postal et de date de naissance du gouverneur, il était simple d'identifier les ordonnances et les visites du gouverneur. C'est ce qu'on appelle une attaque de réidentification. Sweeney a développé une définition formelle de la vie privée appelée k-anonymat pour empêcher ce type d'attaque.

k-anonymat

L'unicité de l'ensemble d'enregistrements dans l'ensemble de données était la clé à l'attaque de réidentification. Sweeney a postulé que si un ensemble de données est k-anonymisé, un attaquant pourrait être en mesure d'utiliser une autre base de données pour trouver les informations démographiques de sa cible. Mais il y aura beaucoup de personnes différentes avec les mêmes informations, il ne leur sera donc pas possible de savoir laquelle est leur cible. Avec quelques conseils, vous pouvez créer une plate-forme de données adaptée aux besoins de votre organisation et tirer le meilleur parti de votre capital de données. avec des imitateurs dans un jeu d'anonymat. Un ensemble anonymisé est « un groupe d'individus qui sont liés les uns aux autres par un attribut commun et avec lesquels on souhaite garder cachée leur identité ». Un ensemble dépendant utilise la même valeur anonymisée pour plusieurs champs d'un enregistrement, tandis qu'un ensemble indépendant utilise des valeurs anonymisées distinctes pour chaque attribut.

Réfléchissez aux colonnes susceptibles d'être utilisées par l'adversaire qui vous préoccupe. Les quasi-identifiants (ou QI) sont des éléments de données qui, bien qu'ils ne soient pas eux-mêmes sensibles, peuvent être utilisés dans une tentative de réidentification. Il n'existe pas de liste unique de quasi-identifiants pour tous les types d'attaques. Il est déterminé par le modèle d'attaque. Un ensemble de données est dit k-anonyme si chaque combinaison de valeurs pour les colonnes démographiques dans l'ensemble de données apparaît au moins pour k enregistrements différents.

Comprendre ce que le k signifie dans k-l'anonymat est essentiel à la mise en œuvre d'un protocole de confidentialité efficace. La valeur k est le nombre minimum d'enregistrements anonymisés suffisants pour protéger la confidentialité lorsqu'un adversaire peut voir tous les champs sauf un par enregistrement et essaie d'apprendre le champ restant. Autrement dit, pour chaque enregistrement de la base de données, il existe au moins k-1 enregistrements anonymisés, de sorte qu'un adversaire ne peut pas déterminer lequel de ces k-1 enregistrements est la version anonymisée d'un seul record.

Les deux composants les plus importants pour transformer un ensemble de données en une table k-anonyme sont la généralisation et la suppression. Le processus consistant à rendre une valeur de quasi-identifiant moins précise, transformant ainsi (ou généralisant) des enregistrements avec des valeurs différentes, est appelé généralisation. Prenons un exemple dans lequel vous devez convertir un nombre entier en une rangée numérique. La suppression est une méthode pour améliorer l'utilité de la généralisation en supprimant les valeurs aberrantes de l'ensemble de données d'origine et en en générant un nouveau.

Des recherches ont remis en question l'efficacité de l'k-anonymat, en particulier pour les grands ensembles de données.

Critiques

Yves-Alexandre de Montjoye et al. (2013) ont constaté que le risque de réidentification d'un individu à partir d'une base de données anonyme peut être approximé en utilisant une fonction de son changement "relatif" dans le contenu de l'information, ce qui signifie que plus d'éléments de son information sont révélés, plus il est probable qu'il soit " réidentifié. »

Selon une recherche menée en 2014 par Mark Yatskar, l'k-anonymisation peut être facilement décomposée. De nombreuses personnes identifiées dans l'ensemble de données sur les téléphones portables créé par Yatskar et son équipe ont été réidentifiées.

Dans une étude menée en 2015 par Vanessa Teague, les transactions par carte de crédit de 1,1 million de personnes en Australie ont été rendues publiques. Pour des raisons de confidentialité, les données ont été anonymisées à l'aide d'une technique qui supprime le nom, l'adresse et les numéros de compte de chaque personne. Si quatre détails supplémentaires sur un individu, tels que le lieu où un achat a été effectué et l'heure à laquelle il a eu lieu, étaient connus, les chercheurs ont découvert que 90 % des utilisateurs de cartes de crédit pouvaient être re-identifiés.

Les chercheurs ont pu développer. un nouvel algorithme qui n'avait pas les mêmes défauts que le premier. L'équipe a dévoilé une nouvelle méthode d'anonymisation appelée "l-diversity anonymization" dans cette étude. Ils ont constaté que leur technique "réduit la traçabilité des transactions de plus d'un ordre de grandeur" par rapport aux autres techniques d'anonymisation. Alors, qu'est-ce que la l-diversité ? C'est pour un autre blog.

À propos de l'auteur <!– :   dcallaghan, Architecte de solutions–>

En tant qu'architecte de solutions chez Perficient, j'apporte vingt ans d'expérience en développement et je travaille actuellement avec Hadoop/Spark, blockchain et cloud, codage en Java, Scala et Go. Je suis certifié et travaille beaucoup avec Hadoop, Cassandra, Spark, AWS, MongoDB et Pentaho. Plus récemment, j'ai apporté des solutions intégrées de blockchain (en particulier Hyperledger et Ethereum) et de big data dans le cloud en mettant l'accent sur l'intégration de produits de données modernes tels que HBase, Cassandra et Neo4J en tant que référentiel hors blockchain. cet auteur




Source link