Fermer

décembre 20, 2021

Protégez les données biomédicales des pirates en traitant le problème comme un jeu


La grande idée

La théorie des jeux, qui essaie de prédire comment le comportement des concurrents influence les choix des autres joueurs, peut aider les chercheurs à trouver les meilleurs moyens de partager des données biomédicales tout en protégeant l'anonymat des personnes qui fournissent les données. des pirates.

La recherche biomédicale moderne, telle que le National COVID Cohort Collaborative et le Personal Genome Projectnécessite de grandes quantités de données spécifiques aux individus. Rendre des ensembles de données détaillés accessibles au public sans violer la vie privée de qui que ce soit est un défi critique pour des projets comme ceux-ci.

Pour ce faire, de nombreux programmes qui collectent et diffusent des données génomiques masquent des informations personnelles dans les données qui pourraient être exploitées pour ré-identifier les sujets. Même ainsi, il est possible que des données résiduelles soient utilisées pour retrouver des informations personnelles provenant d'autres sources, qui pourraient être corrélées avec les données biomédicales pour découvrir l'identité des sujets. Par exemple, la comparaison des données ADN d'une personne avec des bases de données généalogiques publiques comme Ancestry.com peut parfois donner le nom de famille de la personne qui peut être utilisé avec des données démographiques pour retrouver l'identité de la personne via des moteurs de recherche d'enregistrements publics en ligne comme PeopleFinders.

Notre groupe de recherche, le Center for Genetic Privacy and Identity in Community Settingsa développé des méthodes pour aider à évaluer et atténuer les risques de confidentialité dans le partage de données biomédicales. Nos méthodes peuvent être utilisées pour protéger divers types de données, telles que les données démographiques personnelles ou les séquences génomiques, contre les attaques contre l'anonymat. attaqué par une personne ayant accès à plusieurs sources de données (chemin rouge) est le plus à risque, tandis que les données génomiques mieux protégées attaquées par une personne sans accès à d'autres sources (chemin bleu) sont le moins à risque. Image via Vanderbilt University Medical Center, CC BY-ND

Notre travail le plus récent utilise un jeu leader-suiveur à deux joueurs pour modéliser les interactions entre une personne concernée et un utilisateur de données potentiellement malveillant. Dans ce modèle, la personne concernée se déplace en premier, décidant quelles données partager. Ensuite, l'adversaire passe ensuite à la décision d'attaquer en fonction des données partagées.

L'utilisation de la théorie des jeux pour évaluer les approches de partage des données implique de noter chaque stratégie à la fois sur la confidentialité et la valeur des données partagées. Les stratégies impliquent des compromis entre omettre ou masquer des parties des données pour protéger les identités et conserver les données aussi utiles que possible.

La stratégie optimale permet à la personne concernée de partager le plus de données avec le moins de risques. Trouver la stratégie optimale est cependant difficile, car les données de séquençage du génome ont de nombreuses dimensions, ce qui rend impossible la recherche exhaustive de toutes les stratégies de partage de données possibles.

Pour surmonter ce problème, nous avons développé des algorithmes de recherche qui se concentrent sur attention sur un petit sous-ensemble de stratégies qui sont les plus susceptibles de contenir la stratégie optimale. Nous avons démontré que notre méthode est la plus efficace compte tenu à la fois de l'utilité des données pour le public et de la confidentialité de la personne concernée.

Pourquoi c'est important

Le pire des cas, où un attaquant a des capacités illimitées et aucune aversion pour pertes financières, est souvent extrêmement improbable. Cependant, les gestionnaires de données se concentrent parfois sur ces scénarios, ce qui peut les amener à surestimer le risque de ré-identification et à partager beaucoup moins de données qu'ils ne le pourraient en toute sécurité.

L'objectif de notre travail est de créer une approche systématique pour raisonner sur le risques qui expliquent également la valeur des données partagées. Notre approche basée sur le jeu fournit non seulement une estimation plus réaliste du risque de ré-identification, mais trouve également des stratégies de partage de données qui peuvent trouver le bon équilibre entre l'utilité et la confidentialité.

Quelles autres recherches sont en cours

Les gestionnaires de données utilisent-ils techniques cryptographiques à protéger les données biomédicales. D'autres approches incluent ajouter du bruit aux données et masquer des données partielles.

Ce travail s'appuie sur nos études précédentes, qui ont été pionnières en utilisant la théorie des jeux pour évaluer le risque de re- l'identification au sein des données de santé et protègent contre les attaques d'identité sur les données génomiques. Notre étude actuelle est la première à considérer une attaque dans laquelle l'attaquant peut accéder à plusieurs ressources et les combiner par étapes. rationalité d'un joueur. Nous travaillons également à prendre en compte les environnements qui se composent de plusieurs fournisseurs de données et de plusieurs types de destinataires de données.

Cet article de Zhiyu WanPostdoctoral Research Fellow in Biomedical Informatics, Université Vanderbilt ; Bradley Malinprofesseur d'informatique biomédicale, de biostatistique et d'informatique, Vanderbilt Universityet Yevgeniy Vorobeychikprofesseur agrégé d'informatique, Washington University in St Louisest réédité de The Conversation sous licence Creative Commons. Lire l'article d'origine.




Source link