Fermer

janvier 18, 2022

Protégez les PII avec des ensembles de données anonymisés pour les Data Scientists avec une confidentialité différentielle


Les entreprises et les organisations détiennent désormais plus d'informations personnelles que jamais auparavant. Le stockage de grandes quantités de données structurées et non structurées peut être utile de diverses manières, telles que les rapports et l'analyse, mais il peut exposer des informations personnelles liées aux données analysées. Comme les organisations sont de plus en plus sous pression pour se conformer aux lois sur la confidentialité des données et réglementations, il est important que les informations personnelles sur les clients ou les employés ne soient pas compromises. Les scientifiques des données effectuent généralement des analyses sur un échantillon représentatif d'un magasin de données volumineuses ; généralement dix pour cent. La confidentialité différentielle s'est avérée être un algorithme efficace d'anonymisation des données pour ce type de tâche. ARX ​​est un logiciel open source complet permettant d'anonymiser les données personnelles sensibles et peut être utilisé pour prendre en charge ce type d'analyse. . La désidentification utilisant k-anonymat est l'algorithme le plus largement utilisé, mais il est sujet à des attaques de réidentification assez simples dans certaines conditions. D'autres algorithmes tels que la l-diversité et la t-proximité impliquent une perte de données et sont toujours sujets à des attaques (telles que l'asymétrie) ou sont difficiles à mettre en œuvre. La confidentialité différentielle n'est pas un algorithme, mais plutôt une définition mathématique de ce que signifie la confidentialité. Le respect de cette exigence garantit que le résultat d'une analyse différentiellement privée sera à peu près le même, quelle que soit l'entrée spécifique. La confidentialité différentielle est un modèle qui garantit la confidentialité des données en garantissant que la probabilité de toute sortie possible du processus d'anonymisation ne change pas « de beaucoup » si les données d'un individu sont ajoutées ou supprimées des données d'entrée. Cela signifie que le résultat du processus doit être le même, qu'il utilise ou non vos données spécifiques. Cela rend très difficile pour les attaquants de dériver des informations sur des individus spécifiques. des informations supplémentaires, afin qu'il puisse se défendre efficacement contre les attaques de liaison qui peuvent être utilisées avec des données anonymisées. pertes de confidentialité pour les deux études.

Il existe également une différence essentielle : la confidentialité différentielle est une méthode de traitement des données plutôt qu'une propriété d'un ensemble de données.

La confidentialité différentielle devient de plus en plus importante à mesure que nous nous dirigeons vers un monde où les données sont constamment collectées et analysées. Pour une implémentation concrète, vous avez besoin d'un algorithme qui satisfait à la définition de confidentialité différentielle et d'un mécanisme pour implémenter cet algorithme sur vos données. 19659013]Avec quelques conseils, vous pouvez créer une plate-forme de données adaptée aux besoins de votre organisation et tirer le meilleur parti de votre capital de données.

Obtenir le guide

SafePub est un algorithme de confidentialité différentielle qui permet anonymisation véridique des données avec de solides garanties de confidentialité.

L'algorithme ne modifie pas les données d'entrée d'origine ni ne fabrique de données de sortie artificielles, car les modifications sont réelles. Au lieu de cela, les enregistrements sont choisis au hasard dans le groupe d'entrée et leurs caractéristiques sont simplifiées. Cela permet d'obtenir la véracité, qui n'est pas disponible dans un certain nombre d'autres algorithmes de confidentialité qui perturbent les données. ensemble de données plus petit et anonymisé. SafePub parcourt un échantillon aléatoire de l'ensemble de données initial et initialise un ensemble de transformations. Pour chaque ensemble de transformations, SafePub anonymisera les données à l'aide de cette transformation, puis exécutera un ensemble de contrôles de qualité des données. Ces vérifications incluent la granularité et l'intensité, la discernabilité, l'entropie non uniforme, la classification statistique et la taille du groupe. Les données. ARX ​​est conçu pour être appliqué dans différents domaines, tels que l'intégration de données et l'extraction d'informations.

ARX se concentre sur deux concepts majeurs de confidentialité des données : l'anonymat et la repondération. L'anonymat implique que la probabilité d'attribuer l'attribut d'une personne à une autre ne devrait pas changer si un nouvel enregistrement est ajouté ou supprimé des données d'entrée. La repondération est une technique permettant d'ajuster la probabilité d'attribuer le même attribut à différentes personnes en réaction aux modifications des données d'entrée.

ARX met en œuvre la confidentialité différentielle en calculant une approximation de la distribution de Laplace, à plusieurs échelles différentes. Le résultat final est un ensemble de données anonymisé qui a des propriétés statistiques similaires à l'ensemble de données d'origine. Cela signifie qu'il est très difficile pour les attaquants de déduire des informations sur les individus dans les données d'entrée en regardant la sortie anonymisée.

Conclusion

En ce qui concerne l'anonymisation des données personnelles sensibles, plusieurs options sont disponibles. La mise en œuvre de la confidentialité différentielle sur des extraits de données provenant de sources de données volumineuses sur site ou dans le cloud avec SafePub fournit les normes de confidentialité nécessaires aux entreprises pour la conformité et la véracité nécessaires aux scientifiques des données pour la précision de leur modèle. Pour la mise en œuvre, l'une des solutions les plus complètes et les mieux prises en charge est ARX. ARX ​​est un logiciel open source qui offre une variété de protections de la vie privée, y compris la confidentialité différentielle. équipe de direction chez Bill.Busch@perficient.com ou Arvind.Murali@perficient.com.

À propos de l'auteur <!– :   dcallaghan, Solutions Architect–>

As architecte de solutions chez Perficient, j'apporte vingt ans d'expérience en développement et je suis actuellement sur le terrain avec Hadoop/Spark, blockchain et cloud, codage en Java, Scala et Go. Je suis certifié et travaille beaucoup avec Hadoop, Cassandra, Spark, AWS, MongoDB et Pentaho. Plus récemment, j'ai apporté des solutions intégrées de blockchain (en particulier Hyperledger et Ethereum) et de big data dans le cloud en mettant l'accent sur l'intégration de produits de données modernes tels que HBase, Cassandra et Neo4J en tant que référentiel hors blockchain. cet auteur




Source link

Revenir vers le haut