Fermer

février 1, 2022

Au-delà du chiffrement : protégez les données sensibles à l'aide de t-closeness


Les entreprises et les organisations détiennent désormais plus d'informations personnelles que jamais auparavant. Le stockage d'un grand nombre de données peut être utile de diverses manières, telles que la création de rapports et l'analyse, ce qui peut exposer des informations personnelles liées aux données analysées. Lorsque des données sont transmises ou stockées, le cryptage est utile pour les protéger, tandis que l'anonymisation est importante pour préserver les données pendant leur utilisation ou leur diffusion. L'anonymisation est mieux adaptée aux ensembles de données plus petits, tandis que le chiffrement fonctionne mieux avec les plus grands. À des fins de conformité, une approche pratique peut consister à combiner le chiffrement pour les données restantes et en transit et l'anonymisation des données en cours d'utilisation.

L'objectif de l'anonymisation des données n'est pas simplement d'obscurcir ; il est essentiel de ne pas permettre de ré-identifier les données après l'anonymisation. Cela implique de prendre en compte des paramètres tels que la quantité de données, le type d'informations qu'elles contiennent et le risque d'identification lors de l'anonymisation. Pour la plupart des entreprises, l'objectif sera d'anonymiser les données sensibles telles que PHI/PHI. Dans un précédent articlej'ai parlé de l'utilisation du k-anonymat pour protéger les données sensibles. Cependant, des recherches ont remis en question l'efficacité de l'k-anonymat, en particulier pour les grands ensembles de données. J'ai poursuivi avec un autre article sur la l-diversitéune technique qui répond à certaines des préoccupations concernant l'k-anonymat. Cet article traitera de la proximité tqui traite de certaines préoccupations concernant la diversité l. parlez à un chercheur, il vous confirmera que la l-diversité est plus correcte que le k-anonymat. Cependant, il existe très peu d'implémentations de cet algorithme en cours d'utilisation. Une grande partie de l'utilité de l'ensemble de données est perdue. Peut-être trop de perte juste deux résoudre deux problèmes avec k-anonymat. Et vous obtenez deux autres vecteurs d'attaque : l'asymétrie et la similarité. Si vous avez trois attributs : cancer du poumon, cancer du foie et cancer de l'estomac dans un ensemble de données, vous avez une diversité satisfaisante. Mais un intrus peut identifier qu'un sujet a un cancer. Dans une crise d'asymétrie, il peut y avoir un groupe où la moitié des patients ont une maladie cardiaque et l'autre moitié non. Si un intrus identifie la cible comme appartenant à ce groupe, il peut en déduire 50 % de chances d'avoir une maladie cardiaque, ce qui est bien plus élevé que la moyenne.

Data Intelligence - The Future of Big Data
The Future of Big Data

Avec quelques conseils, vous pouvez créer une plate-forme de données adaptée aux besoins de votre organisation et tirer le meilleur parti de votre capital de données.

Obtenir le guide

Il existe une troisième option, t-closenessqui résout les attaques de biais et de similarité.

Qu'est-ce que la t-closeness ?

Le modèle de t-closeness est un raffinement de l'idée de l-diversité. L'une des caractéristiques du modèle de diversité l est qu'il traite toutes les valeurs d'un attribut donné de la même manière, quelle que soit leur proportion relative dans les données. Étant donné que les ensembles de données réels peuvent avoir des valeurs d'attribut très inégales, c'est rarement le cas. La connaissance de base de la distribution mondiale est fréquemment utilisée par un adversaire pour faire des inférences sur les valeurs critiques des données. Cela peut rendre plus difficile la création de représentations l-diverses réalisables. Il s'agit de la vulnérabilité d'asymétrie de la l-diversité.

Toutes les valeurs d'attributs n'ont pas la même importance. Par exemple, un attribut lié à une maladie peut être plus sensible lorsque la valeur est positive plutôt que négative. l'attribut au sein d'un groupe anonymisé ne doit pas être différent de la distribution globale de plus d'un seuil t.

Certaines études ont montré l'approche de t-proximité a tendance à être plus efficace que de nombreuses autres méthodes d'exploration de données préservant la confidentialité dans le cas d'attributs numériques également. l-diversité

La confidentialité des données est une considération importante pour toute entreprise, et il peut être difficile d'équilibrer la nécessité de protéger les données sensibles avec d'autres besoins comme la facilité d'utilisation. Il est impératif que vous preniez le temps de faire un inventaire approfondi de toutes les sources d'informations clients de votre entreprise afin d'identifier ce qui doit être anonymisé ou crypté. Une fois que vous saurez cela, il vous sera beaucoup plus facile de choisir entre k-anonymat, t-proximité et l-diversité.

Par exemple, la plupart des organisations. voudront commencer par k-anonymat où k a une valeur de ~10. Cela semble satisfaire la plupart des cas d'utilisation commerciale. Vous voudrez peut-être revoir cette pratique après avoir résolu tous les problèmes et voir s'il est nécessaire d'inclure la t-proximité.

Mise en œuvre pratique

Pour être efficaces, ces algorithmes doivent être implémenté. La plupart des recherches ont porté sur les problèmes de confidentialité concernant des ensembles de données spécifiques à diffuser au public. Nous nous soucions de réduire la menace potentielle d'activités internes non malveillantes en protégeant les ensembles de données internes. Dans le prochain article, j'identifierai quelques implémentations pratiques.

À propos de l'auteur <!– :   dcallaghan, Architecte de solutions–>

En tant qu'architecte de solutions avec Perficient, j'apporte vingt ans d'expérience en développement et je suis actuellement sur le terrain avec Hadoop/Spark, blockchain et cloud, codage en Java, Scala et Go. Je suis certifié et travaille beaucoup avec Hadoop, Cassandra, Spark, AWS, MongoDB et Pentaho. Plus récemment, j'ai apporté des solutions intégrées de blockchain (en particulier Hyperledger et Ethereum) et de big data dans le cloud en mettant l'accent sur l'intégration de produits de données modernes tels que HBase, Cassandra et Neo4J en tant que référentiel hors blockchain. cet auteur




Source link