Fermer

juillet 30, 2019

Les données anonymisées ne protègent guère la vie privée des utilisateurs



Fournir des données à des tiers est un coût de la vie nécessaire au XXIe siècle. Qu'il s'agisse de souscrire une assurance auto, de passer un examen de routine chez le dentiste ou de parler à des amis et des parents sur Facebook, chacun de nous va remettre environ 1,7 Mo de données par seconde l'année prochaine, selon l'un ] Rapport récent.

Bien que notre inquiétude concernant l'utilisation de ces données ait considérablement augmenté ces dernières années, elle a abouti au lancement d'une enquête fédérale par le MJ au cours des dernières semaines. Toutefois, rien n'a été fait pour enrayer le flux d'informations émanant de particuliers. aux entreprises, ou d'une entreprise à l'autre. En fait, le commerce des données a dépassé le pétrole et est devenu le marché mondial des produits de base à la croissance la plus rapide selon certains experts .

. Nous sommes persuadés que nos données sont anonymisées et que des points de données cruciaux sont stockés sous forme de blips individuels dans une base de données volumineuse – une base de données si volumineuse, avec un nombre si important de ces marqueurs, qu'il est presque impossible de retrouver un seul être humain. 19659004] Ou, c'est ce qu'on nous a dit, de toute façon. Mais cela n'a jamais été vrai. En fait, nous le savons depuis le milieu des années 90, lorsque le Dr Latanya Sweeney, professeur en résidence au gouvernement et à la technologie à l'Université de Harvard, a effacé cette notion en identifiant les dossiers médicaux de William Weld (alors gouverneur du Massachusetts). à partir de trois points de données dans une base de données anonyme. Le Dr Sweeney, qui dirige également le Data Privacy Lab de l'Institute of Quantitative Social Sciences de Harvard, n'avait besoin que du code postal de Weld, de sa date de naissance et de son sexe pour l'identifier correctement parmi un grand nombre d'autres.

Pour vraiment anonymiser les données avant de les partager avec d’autres, les entreprises ont commencé à utiliser une nouvelle méthode appelée échantillonnage. Dans un exemple de base de données, aucune personne, ni aucune société, n'aurait accès à un petit élément d'une base de données anonyme, et non à la totalité de celle-ci

En théorie, cela réduirait le risque de réidentification des personnes anonymes en se scindant en deux. les données en plusieurs échantillons plus petits. Cela rend peu probable qu'une nouvelle personne soit réidentifiée, car le nombre de points de données anonymes sur chaque personne serait réparti dans plusieurs bases de données – et aucune entreprise ni personne ne serait en mesure d'accéder à toutes les bases de données.

le Commissariat australien à l'information, échantillonnant «[creates] l'incertitude selon laquelle une personne en particulier est même incluse dans l'ensemble de données.» Ou, pour le dire simplement, l'échantillonnage empêchera la réidentification des personnes anonymes. Mais ceci aussi est faux.

Selon un trio de chercheurs européens, les personnes figurant dans un échantillon de base de données peuvent être identifiées à nouveau pour 83% du temps en utilisant seulement trois points de données: leur sexe, leur date de naissance et leur code postal. Ils ont créé un outil pratique (qui ne stocke pas les données collectées) que vous pouvez utiliser pour déterminer votre probabilité d'être réidentifié par ces trois points de données. Pour moi, cela représente 45% du temps, bien mieux que la moyenne, mais toujours aussi élevé.

Dans un article publié dans Nature Communications l'équipe a mis au point un modèle statistique permettant d'identifier correctement 99,98% des Américains. utiliser 15 caractéristiques d'un ensemble de données anonymisées, y compris l'âge, le sexe et l'état matrimonial.

Les 15 caractéristiques nécessaires peuvent sembler irréalistes pour une seule entreprise ou pour un particulier. Ce n'est pas. Facebook, Google et Amazon à eux seuls disposent de centaines, voire de milliers de points de données, des données que vous avez abandonnées en fonction de votre historique de recherche, des annonces sur lesquelles vous avez cliqué et des achats que vous avez effectués. À ce stade, les entreprises n'ont même pas besoin de vous leur fournir ces données, car elles peuvent faire une supposition éclairée raisonnablement précise en fonction de votre comportement lorsque vous utilisez certains sites Web ou applications.

ils ne suivent pas, ils achètent. Les courtiers de données sont de grandes entreprises et existent uniquement pour fournir des informations concurrentielles sur tous les aspects, du revenu de votre ménage à celui pour qui vous avez voté lors des dernières élections.

Selon les chercheurs:

Contrairement à une idée reçue, l'échantillonnage d'un jeu de données ne fournir une négation plausible et ne porte pas atteinte à la vie privée des personnes [protect].

Nous pensons qu’en général, il est temps de s’éloigner de la désidentification et de resserrer les règles régissant la constitution de données véritablement anonymisées. S'assurer que les données peuvent être utilisées de manière statistique, par exemple pour la recherche médicale, est extrêmement important mais ne peut pas se faire au détriment de la vie privée des personnes. Des ensembles de données tels que les données génétiques NIGMS et NIH, les données sur la santé de l'État de Washington, l'ensemble de données NYC Taxicab, l'ensemble de données Transport For London, et les ensembles de données australiens anonymisés Medicare Benefits Schedule (PBS) et Pharmaceutical Benefits Schedule (PBS) ont

Les données anonymisées sont meilleures que les solutions de rechange, mais il est clair que nous avons encore du travail à faire pour améliorer notre compréhension de ce qui est collecté et de la manière dont il peut être utilisé contre nous.




Source link