Fermer

février 2, 2022

Au-delà du chiffrement : mise en œuvre d'algorithmes d'anonymat


Les entreprises et les organisations détiennent désormais plus d'informations personnelles que jamais auparavant. Le stockage d'un grand nombre de données peut être utile de diverses manières, telles que la création de rapports et l'analyse, ce qui peut exposer des informations personnelles liées aux données analysées. Lorsque des données sont transmises ou stockées, le cryptage est utile pour les protéger, tandis que l'anonymisation est importante pour préserver les données pendant leur utilisation ou leur diffusion. L'anonymisation est mieux adaptée aux ensembles de données plus petits, tandis que le chiffrement fonctionne mieux avec les plus grands. À des fins de conformité, une approche pratique peut consister à combiner le chiffrement pour les données restantes et en transit et l'anonymisation pour les données en cours d'utilisation.

L'objectif de l'anonymisation des données n'est pas simplement de masquer ; il est essentiel de ne pas permettre de ré-identifier les données après l'anonymisation. Cela implique de prendre en compte des paramètres tels que la quantité de données, le type d'informations qu'elles contiennent et le risque d'identification lors de l'anonymisation. Pour la plupart des entreprises, l'objectif sera d'anonymiser les données sensibles telles que PHI/PHI. Dans un précédent articlej'ai parlé de l'utilisation du k-anonymat pour protéger les données sensibles. Cependant, des recherches ont remis en question l'efficacité de l'k-anonymat, en particulier pour les grands ensembles de données. J'ai poursuivi avec un autre article sur la l-diversitéune technique qui répond à certaines des préoccupations concernant l'k-anonymat. Enfin, j'ai passé en revue la t-proximitéqui à son tour traitait de certaines préoccupations concernant la l-diversité.

Pour être efficaces, ces algorithmes doivent être implémentés. La plupart des recherches ont porté sur les problèmes de confidentialité concernant des ensembles de données spécifiques à diffuser au public. Nous souhaitons réduire la menace potentielle d'activités internes non malveillantes en protégeant les ensembles de données internes.

Considérations pratiques pour l'entreprise

Deux défis majeurs ont été abordés dans cette série de blogs. Le premier est de savoir comment identifier les algorithmes les plus pratiques et les plus efficaces pour parvenir à une « confidentialité pratique ». Garantir zéro pour cent de risque de ré-identification n'est pas la norme de l'industrie et n'est pas requis par les lois actuelles sur la protection de la vie privée. Cependant, les chercheurs ont montré qu'il y a un très petit nombre de points de données supplémentaires (aussi peu que quatre) nécessaires pour identifier un individu à partir d'ensembles de données anonymisés. Le deuxième défi, et potentiellement plus difficile, est de savoir comment mettre en œuvre des contrôles d'anonymisation dans les sources de données polyglottes utilisées par la plupart des entreprises. De nombreuses banques ont les informations de compte d'un client sur un ordinateur central tout en capturant l'échappement des données de leur téléphone portable dans le cloud. De nombreux cas d'utilisation de rapports et d'analyses nécessitent des agrégations à partir de ces multiples sources de données.

Risque d'initié

Le risque que des acteurs externes malveillants accèdent à des données sensibles et les utilisent à mauvais escient est généralement géré par des protocoles de sécurité réseau, des contrôles d'accès, le cryptage des données, etc. le risque d'initié est un cas d'utilisation plus courant pour la mise en œuvre de pratiques internes de confidentialité des données. Un initié est un utilisateur connu ayant un accès légitime aux données. La menace interne fait référence à un initié agissant avec une intention malveillante. Le risque d'initié concerne la probabilité et l'impact commercial potentiel d'un incident de menace, quelle que soit l'intention. 78 % de ces incidents internes impliquaient une perte ou une exposition involontaire de données. Étant donné qu'environ 2 % des événements de déplacement de données entraînent une exposition des données, la mise en œuvre de contrôles de confidentialité des données en tant que composant d'une posture de sécurité peut réduire considérablement la menace potentielle d'activités internes non malveillantes.

La question devient maintenant d'atteindre un équilibre pratique entre efficacité et utilité. Cette question n'a pas de réponse claire car elle dépend beaucoup de plusieurs facteurs internes liés aux besoins de votre entreprise et aux mesures de données. qui leur permet de continuer leur travail. Idéalement, il devrait y avoir un sentiment de confiance que si un employé travaille sur un ensemble de données confidentielles sur un point d'accès Wi-Fi non sécurisé dans un café, il n'y a aucun risque d'incident de fuite de données sécurisées. On leur a dit de ne pas le faire, mais…

La première étape consiste à dresser un inventaire des données et à identifier où se trouvent les données sensibles. Il peut s'agir de mainframes, de bases de données, de fichiers plats, d'Excel, etc. Il est possible de créer des robots d'exploration en python capables de trouver des données sensibles, y compris des données sensibles au format personnalisé telles que les codes d'identification des clients.

Une fois que vous avez identifié les données sources. sur les serveurs, vous avez une décision à prendre. Modifiez-vous les tables source pour les remplacer par des données anonymisées ou implémentez-vous une couche d'abstraction et revoyez-vous les contrôles ACL pour interdire aux utilisateurs d'accéder directement aux tables contenant des données sensibles ?

La réponse peut dépendre des données source et de votre mouvement de données prestations de service. Par exemple, vous pouvez avoir des bases de données mainframe héritées qui contiennent l'enregistrement maître audité de toutes vos données critiques. Une option possible peut être d'avoir les algorithmes de confidentialité intégrés dans les pipelines de mouvement de données qui peuplent les systèmes de bases de données relationnelles plus conviviaux qui pilotent les fonctions OLTP et OLAP.

Il existe des applications commerciales que vous pouvez exploiter pour mettre en œuvre des protocoles de confidentialité, ou vous pouvez lancer le vôtre à l'aide d'un outil open source comme ARX.

Conclusion

La confidentialité des données est une considération importante pour toute entreprise, et il peut être difficile d'équilibrer la nécessité de protéger les données sensibles avec d'autres besoins comme la facilité d'utilisation. Il est impératif que vous preniez le temps de faire un inventaire approfondi de toutes les sources d'informations clients de votre entreprise afin d'identifier ce qui doit être anonymisé ou crypté. Une fois que vous savez cela, il sera beaucoup plus facile de choisir entre k-anonymat, t-proximité et l-diversité.

Ce[Nousespéronsquelasérie19659025]blog series a fourni un aperçu des cas où une méthode peut fonctionner mieux qu'une autre en fonction de la nature du flux de données et des systèmes hérités de votre organisation. Par exemple, la plupart des organisations voudront commencer par k-anonymityk a une valeur de ~10. Cela semble satisfaire la plupart des cas d'utilisation commerciale. Vous voudrez peut-être revoir cette pratique une fois que tous les problèmes auront été résolus et voir s'il est nécessaire d'inclure t-proximité.

Si vous êtes prêt à passer à la suivante niveau de votre parcours d'entreprise axé sur les données en explorant comment la confidentialité peut être utilisée pour améliorer votre profil de sécurité des données, contactez Bill.Busch@perficient.com avec Perficient's Data Solutions.

À propos de l'auteur <!- – :   dcallaghan, Architecte de solutions–>

En tant qu'architecte de solutions chez Perficient, j'apporte vingt ans d'expérience en développement et je travaille actuellement sur Hadoop/Spark, la blockchain et le cloud, le codage en Java, Scala et Go. Je suis certifié et travaille beaucoup avec Hadoop, Cassandra, Spark, AWS, MongoDB et Pentaho. Plus récemment, j'ai apporté des solutions intégrées de blockchain (en particulier Hyperledger et Ethereum) et de big data dans le cloud en mettant l'accent sur l'intégration de produits de données modernes tels que HBase, Cassandra et Neo4J en tant que référentiel hors blockchain. cet auteur




Source link