janvier 18, 2022

Protégez les PII avec des ensembles de données anonymisés pour les Data Scientists avec une confidentialité différentielle

Les entreprises et les organisations détiennent désormais plus d'informations personnelles que jamais auparavant. Le stockage de grandes quantités de données structurées et non structurées peut être utile de diverses manières, telles que les rapports et l'analyse, mais il peut exposer des informations personnelles liées aux données analysées. Comme les organisations sont de plus en plus sous pression pour se conformer aux lois sur la confidentialité des données et réglementations, il est important que les informations personnelles sur les clients ou les employés ne soient pas compromises. Les scientifiques des données effectuent généralement des analyses sur un échantillon représentatif d'un magasin de données volumineuses ; généralement dix pour cent. La confidentialité différentielle s'est avérée être un algorithme efficace d'anonymisation des données pour ce type de tâche. ARX est un logiciel open source complet permettant d'anonymiser les données personnelles sensibles et peut être utilisé pour prendre en charge ce type d'analyse. . La désidentification utilisant k-anonymat est l'algorithme le plus largement utilisé, mais il est sujet à des attaques de réidentification assez simples dans certaines conditions. D'autres algorithmes tels que la l-diversité et la t-proximité impliquent une perte de données et sont toujours sujets à des attaques (telles que l'asymétrie) ou sont difficiles à mettre en œuvre. La confidentialité différentielle n'est pas un algorithme, mais plutôt une définition mathématique de ce que signifie la confidentialité. Le respect de cette exigence garantit que le résultat d'une analyse différentiellement privée sera à peu près le même, quelle que soit l'entrée spécifique. La confidentialité différentielle est un modèle qui garantit la confidentialité des données en garantissant que la probabilité de toute sortie possible du processus d'anonymisation ne change pas « de beaucoup » si les données d'un individu sont ajoutées ou supprimées des données d'entrée. Cela signifie que le résultat du processus doit être le même, qu'il utilise ou non vos données spécifiques. Cela rend très difficile pour les attaquants de dériver des informations sur des individus spécifiques. des informations supplémentaires, afin qu'il puisse se défendre efficacement contre les attaques de liaison qui peuvent être utilisées avec des données anonymisées. pertes de confidentialité pour les deux études.

Il existe également une différence essentielle : la confidentialité différentielle est une méthode de traitement des données plutôt qu'une propriété d'un ensemble de données.

La confidentialité différentielle devient de plus en plus importante à mesure que nous nous dirigeons vers un monde où les données sont constamment collectées et analysées. Pour une implémentation concrète, vous avez besoin d'un algorithme qui satisfait à la définition de confidentialité différentielle et d'un mécanisme pour implémenter cet algorithme sur vos données. 19659013]Avec quelques conseils, vous pouvez créer une plate-forme de données adaptée aux besoins de votre organisation et tirer le meilleur parti de votre capital de données.

Obtenir le guide

Blog ARC Optimizer

janvier 18, 2022

Protégez les PII avec des ensembles de données anonymisés pour les Data Scientists avec une confidentialité différentielle

Conclusion

À propos de l'auteur <!– : dcallaghan, Solutions Architect–>

Articles similaires

Blog ARC Optimizer

Conclusion

À propos de l'auteur <!– : dcallaghan, Solutions Architect–>

Partager :

Articles similaires