Fermer

décembre 28, 2020

Pourquoi le web scraping est vital pour la démocratie



Les fruits du grattage Web – en utilisant du code pour récolter des données et des informations sur des sites Web – sont partout autour de nous.

Les gens construisent des grattoirs qui peuvent trouver tous les Applebee de la planète ou collecter le Congrès législation et votes ou suivent les montres de fantaisie à vendre sur les sites Web des fans. Les entreprises utilisent des grattoirs pour gérer leur inventaire de vente au détail en ligne et surveiller les prix de leurs concurrents . De nombreux sites bien connus utilisent des grattoirs pour faire des choses comme suivre les prix des billets d'avion et les offres d'emploi . Google est essentiellement un grattoir Web géant et rampant.

Les grattoirs sont également les outils des chiens de garde et des journalistes, c'est pourquoi The Markup a déposé un mémoire d'amicus dans une affaire devant la Cour suprême des États-Unis cette semaine qui menace

L'affaire elle-même – Van Buren c. États-Unis – ne porte pas sur le grattage mais plutôt sur une question juridique concernant la poursuite d'un policier géorgien, Nathan Van Buren, qui a été soudoyé pour rechercher des informations confidentielles dans une base de données d'application de la loi. Van Buren a été poursuivi en vertu de la Computer Fraud and Abuse Act (CFAA), qui interdit l'accès non autorisé à un réseau informatique tel que le piratage informatique, où quelqu'un pénètre par effraction dans un système pour voler des informations (ou, comme le montre le film classique des années 1980 » WarGames "potentiellement déclencher la troisième guerre mondiale).

Dans le cas de Van Buren, puisqu'il a été autorisé à accéder à la base de données pour travailler, la question est de savoir si le tribunal définira largement ses activités troublantes comme" dépassant l'accès autorisé »Pour extraire des données, ce qui en ferait un crime au sens de la CFAA. Et c'est cette définition qui pourrait affecter les journalistes.

Ou, comme l'a dit le juge Neil Gorsuch lors des plaidoiries de lundi, conduire à «peut-être faire de nous tous un criminel fédéral».

Les journalistes d'investigation et autres chiens de garde souvent utiliser des grattoirs pour éclairer les problèmes, petits et grands, depuis suivre l'influence des lobbyistes au Pérou en collectant les journaux numériques des visiteurs pour les bâtiments gouvernementaux jusqu'à surveiller et collecter des publicités politiques sur Facebook. Dans ces deux cas, les pages et les données récupérées sont accessibles au public sur Internet – aucun piratage n'est nécessaire – mais les sites concernés pourraient facilement modifier les petits caractères de leurs conditions de service pour qualifier l'agrégation de ces informations de «non autorisée». Et la Cour suprême des États-Unis, en fonction de la manière dont elle statue, pourrait décider que la violation de ces conditions de service est un crime en vertu de la CFAA.

«Une loi qui permet à des forces puissantes comme le gouvernement ou des entreprises riches de criminaliser unilatéralement les activités de collecte d'informations en bloquer ces efforts par le biais des conditions d'utilisation de leurs sites Web violerait le premier amendement », a écrit The Markup dans notre mémoire.

Quel type de travail est à risque? Voici un tour d'horizon d'un journalisme récent rendu possible par le web scraping:

  • Le COVID tracking project from The Atlantic, recueille et agrège quotidiennement des données de tout le pays, servant de moyen de suivi où les tests ont lieu, là où la pandémie se développe, et les disparités raciales entre les personnes qui contractent et meurent du virus.
  • Ce projet de Reveal, a gratté les groupes Facebook extrémistes et comparé leurs effectifs à ceux des groupes d'application de la loi sur Facebook – et a constaté de nombreux chevauchements.
  • La récente enquête du Markup sur les résultats de recherche de Google a révélé qu'il favorise systématiquement ses propres produits laissant certains sites Web dont le géant du Web lui-même gratte les informations en difficulté pour les visiteurs et, par conséquent, les revenus publicitaires. Le ministère de la Justice des États-Unis a cité le problème dans une action en justice antitrust contre l'entreprise.

Cet article a été initialement publié sur The Markup et republié sous la licence Creative Commons Attribution-NonCommercial-NoDerivatives . [19659018]




Source link