septembre 20, 2021

Les domaines imposteurs republientils votre site Web ? — fracassant

Résumé rapide ↬

Le grattage de contenu est une réalité sur Internet. Lorsque vous pensez au grattage Web, vous ne pensez probablement pas aux grattoirs qui se retournent et diffusent immédiatement le contenu de votre page entière sur un autre site Web. Mais que se passe-t-il si le contenu de votre site est republié ? C'est peut-être déjà en train de se produire.

Nous considérons le web scraping comme un outil utilisé pour récolter du contenu web à des fins d'analyse d'informations, parfois au détriment du propriétaire du site. Par exemple, quelqu'un peut récupérer toutes les pages de produits du site de vente au détail d'un concurrent pour collecter des informations sur les produits proposés et les prix actuels afin d'essayer de gagner un avantage concurrentiel.

Le raclage Web peut être utilisé pour collecter des données marketing, telles que l'identification. de bons mots clés pour les campagnes publicitaires, l'identification des sujets tendances pour les articles de blog ou l'identification des influenceurs dans les blogs et sites d'actualités importants. Les fabricants peuvent gratter les sites de vente au détail pour s'assurer que le Mfabricant Advertised Pricing (MAP) est respecté, et les auditeurs de sécurité pourrait gratter des sites pour rechercher des vulnérabilités ou des violations des politiques de confidentialité. Et bien sûr, les grattoirs pourraient gratter votre site pour rechercher des failles de sécurité ou des détails de contacts ou de prospects exposés. Aucune de ces activités n'aurait pour conséquence que le contenu gratté serait republié ou remis aux utilisateurs finaux.

Il existe cependant des situations où le contenu de la page Web gratté est remis en tant que page elle-même directement aux visiteurs. Comme nous le verrons ci-dessous, cela peut être fait pour des raisons bénignes ou pas si bénignes. Dans le pire des cas, il peut s'agir de véritables domaines imposteurs, cherchant à interagir avec de vrais utilisateurs sans reconnaître la véritable source de votre contenu . Cependant, même dans des cas d'utilisation bénins, vous perdez un certain contrôle sur l'expérience du visiteur. Lorsque votre contenu est diffusé par d'autres moyens, à partir d'autres serveurs ou plates-formes, cela peut mettre en péril l'expérience utilisateur et la relation commerciale que vous avez établies avec vos utilisateurs.

Comment pouvez-vous identifier, suivre et gérer ce risque pour votre Entreprise? Nous explorons comment vous pouvez utiliser l'analyse Web ou les données de mesure des utilisateurs réels sur votre site Web pour avoir un aperçu de tous les domaines imposteurs republiant votre travail. Nous décrivons également les types de republication de contenu les plus courants que nous voyons dans les données du monde réel que nous avons collectées dans Akamai mPulse, à la fois bénignes et problématiques, afin que vous sachiez quoi rechercher dans vos données.

Comment suivre les activités suspectes[19659007] Si vous commencez tout juste à vous demander si quelqu'un pourrait republier votre contenu Web, la chose la plus simple à faire est d'effectuer une recherche sur Google. Copiez une phrase de dix ou douze mots d'une page d'intérêt de votre site dans la barre de recherche Google, placez-la entre guillemets et cliquez sur Rechercher. Vous devriez, espérons-le, voir votre propre site dans les résultats de recherche, mais si vous trouvez cette phrase exacte correspondant sur d'autres sites, vous pourriez être victime d'une réédition. Cette approche est évidemment un peu ad-hoc. Vous pouvez peut-être scripter certaines recherches Google pour exécuter ce type de vérifications périodiquement. Mais combien de pages vérifiez-vous ? Comment choisir de manière fiable le contenu des pages que la réédition ne va pas modifier ? Et si les pages vues republiées n'apparaissent jamais dans les résultats de recherche de Google ?
Une meilleure approche consiste à utiliser les données que vous collectez déjà avec vos analyses Web ou Real User Mservices de mesure (RUM). Ces services varient considérablement dans leurs capacités et la profondeur des données collectées. Ils sont généralement tous instrumentés en tant que processus JavaScript chargés sur les pages Web de votre site via une balise ou un extrait de code de chargement. Lorsque le service détermine qu'une page vue (et/ou une autre activité d'intérêt de l'utilisateur) est terminée, il renvoie une « balise » de données à un système de collecte, où les données sont ensuite traitées, agrégées et stockées pour le futur. analyse.
Pour aider à identifier la re-publication de pages Web par des domaines d'imposteurs, ce que vous voulez est un service qui :
Collecte des données pour chaque page vue sur le site (idéalement) ;
Collecte l'URL complète de la page de base Ressource HTML de la page vue ;
Accepte les balises même si le nom d'hôte dans cette URL de page de base n'est pas celui sous lequel votre site est publié ;
Vous permet de interrogez vous-même les données collectées et/ou a déjà des requêtes de données conçues pour trouver des « domaines imposteurs ».
Plus après le saut ! Continuez à lire ci-dessous ↓

Que se passe-t-il lorsqu'une page Web est republiée ?

Lorsqu'une page Web est grattée dans l'intention d'être livrée sous forme de vue de page complète à un utilisateur final, le scraper peut modifier le contenu. Les modifications peuvent être importantes. La modification de certains contenus est plus facile que d'autres, et bien qu'un domaine imposteur puisse changer du texte ou des images, la modification de JavaScript peut être une proposition plus difficile. Les tentatives de modifications dans JavaScript peuvent endommager la fonctionnalité de la page, empêcher un rendu correct ou présenter d'autres problèmes. le contenu pour les supprimer en raison des risques de rupture de la page. Si le grattoir ne supprime pas intentionnellement l'extrait de code ou la balise du chargeur pour votre service d'analyse Web ou RUM, de manière générale, il se chargera avec succès et générera une balise pour la vue de la page – vous donnant la preuve de l'activité du domaine de l'imposteur .

C'est la clé du suivi des domaines imposteurs avec des analyses Web ou des données RUM. Même si aucun contenu de la page n'est fourni depuis votre plate-forme ou vos serveurs, tant que le code JavaScript que vous utilisez pour l'analyse ou le suivi des performances se charge, vous pouvez toujours obtenir des données sur la vue de la page.

Transformer les données en informations[19659007] Maintenant que vous avez des données, vous pouvez les extraire pour trouver des preuves de domaines imposteurs. À la base, il s'agit d'une requête de base de données qui compte le nombre de pages vues par chaque nom d'hôte dans l'URL de la page, quelque chose comme ce pseudocode :

results = query("""
  sélectionner
    hôte,
    compter (*) comme compte
  de
    $(tableName)
  où
    horodatage entre '$(startTime)' et '$(endTime)'
    et l'url n'aime pas 'file:%'
  grouper par 1
  commander par 2 déc.
""");

Tout nom d'hôte dans les résultats qui n'est pas celui que votre site utilise est un domaine imposteur et mérite d'être étudié. Pour une surveillance continue des données, vous souhaiterez probablement catégoriser les domaines imposteurs que vous voyez dans les données et que vous avez identifiés.

Par exemple, certains domaines utilisés par les services de traduction en langage naturel qui republient des pages Web entières pourrait ressembler à ceci :

# domaines de traduction
translationDomaines = ["convertlanguage.com","dichtienghoa.com","dict.longdo.com",
  "motionpoint.com","motionpoint.net","opentrad.com","papago.naver.net","rewordify.com",
  "trans.hiragana.jp","translate.baiducontent.com","translate.goog",
  "translate.googleusercontent.com","translate.sogoucdn.com","translate.weblio.jp",
  "translatetheweb.com","translatoruser-int.com","transperfect.com","webtrans.yodao.com",
  "webtranslate.tilde.com","worldlingo.com"]

En fonction de vos besoins, vous pouvez créer des tableaux de domaines « acceptables » et « à problème », ou classer les domaines imposteurs par leur fonction ou leur type. Vous trouverez ci-dessous les types de domaines d'imposteurs les plus courants que vous pourriez voir dans les données du monde réel. En examinant les données mPulse d'Akamai sur un large éventail de clients, la plupart des pages vues à partir de domaines imposteurs sont en fait des services qu'un visiteur du site choisit intentionnellement d'utiliser. Un visiteur du site peut être en mesure de profiter du contenu de la page qu'il trouverait inaccessible. Dans certains cas, les services sont probablement utilisés par les employés du propriétaire du site lui-même.

Les principales catégories décrites ici ne sont en aucun cas exhaustives.

Traduction en langue naturelle

Les domaines imposteurs les plus courants sont ceux utilisés. par des services de traduction en langage naturel. Ces services peuvent extraire une page Web, traduire le texte codé sur la page dans une autre langue et fournir ce contenu modifié à l'utilisateur final.

La page que l'utilisateur final verra aura une URL du domaine de premier niveau. du service de traduction (comme translate.goog translatoruser-int.comou translate.weblio.jp parmi beaucoup d'autres). rewordify.com modifie le texte anglais d'une page en phrases plus simples pour les anglophones débutants. Bien que vous n'ayez aucun contrôle sur la qualité des traductions ou les performances de l'expérience de la page fournie, il est prudent de supposer que la plupart des propriétaires de sites ne considéreraient pas cela comme un risque ou une préoccupation pour l'entreprise.

Résultats mis en cache par les moteurs de recherche et les archives Web

Une autre catégorie courante de domaines d'imposteurs sont les domaines utilisés par les moteurs de recherche pour fournir des résultats mis en cache ou des versions archivées des pages vues. En règle générale, il s'agirait de pages qui pourraient ne plus être disponibles sur le site mais qui sont disponibles dans des archives tierces.

Une capture d'écran d'un service de traduction en langage naturel présentant un article de site Web d'actualités traduit de l'anglais au japonais. — Un service de traduction en langage naturel présentant un article de site Web d'actualités traduit de l'anglais vers le japonais. ( Grand aperçu)

Vous souhaiterez peut-être connaître la fréquence de ces pages vues et une analyse plus approfondie pourrait déterminer les spécificités de ce que les utilisateurs finaux recherchaient dans les caches et les archives en ligne. Avec l'URL complète de chaque demande adressée aux caches et archives en ligne, vous devriez être en mesure d'identifier les mots-clés ou les sujets qui apparaissent le plus souvent dans ces types de pages vues.

Un exemple de capture d'écran du message qui apparaît au-dessus d'une recherche en cache. résultat dans le service de recherche de Google. — Le message qui apparaît au-dessus d'un résultat de recherche mis en cache dans le service de recherche de Google. ( Grand aperçu)

Outils de développement

Ces services seront généralement utilisés par vos propres employés dans le cadre de l'activité naturelle de développement et d'exploitation de votre site. Un outil de développement typique peut gratter une page Web entière, l'analyser à la recherche d'erreurs de syntaxe dans JavaScript, XML, HTML ou CSS, et afficher une version balisée de la page pour que le développeur puisse l'explorer.

]En plus des erreurs de syntaxe, les outils peuvent également évaluer la conformité d'un site avec l'accessibilité ou d'autres normes légalement requises. Quelques exemples de services vus dans le monde réel incluent codebeautify.org, webaim.org et jsonformatter.org.

Outils de publication de contenu

Très similaires aux outils de développement sont des outils que vous pouvez utiliser pour gérer vos besoins de publication de contenu. L'exemple le plus courant est l'outil Google Ads Previewqui récupère une page, la modifie pour inclure une balise publicitaire et un contenu publicitaire de Google, et l'affiche au propriétaire du site pour voir à quoi ressemblerait le résultat. comme s'il était publié.

Un autre type d'outil de publication de contenu est un service qui récupère une page Web, la compare aux bases de données pour toute violation potentielle du droit d'auteur ou plagiatet affiche la page avec un balisage pour identifier tout contenu offensant.

Une capture d'écran d'un service en ligne qui charge une page Web dans son intégralité et met en évidence toute partie de la page contenant du texte trouvé dans des bases de données de contenu précédemment publié. — Un exemple de service en ligne qui charge un page Web dans son intégralité et met en évidence toute partie de la page qui contient du texte trouvé dans des bases de données de contenu précédemment publié. ( Grand aperçu)

Domaines de transcodage

Certains services fournissent une page Web sous une forme modifiée pour des performances améliorées ou des caractéristiques d'affichage améliorées. Le service le plus courant de ce type est Google Web Light. Disponible dans un nombre limité de pays sur les appareils Android OS avec des connexions réseau mobiles lentes, Google Web Light transcode la page Web pour fournir jusqu'à 80 % d'octets en moins tout en préservant une « majorité du contenu pertinent » tout en le nom de la livraison du contenu dans le navigateur Android Mobile beaucoup plus rapidement.

D'autres services de transcodage modifient le contenu de la page pour changer sa présentation, par exemple printwhatyoulike.com supprime les éléments publicitaires en vue de l'impression sur papier, et marker.to permet à un utilisateur de « marquer » une page Web avec un surligneur jaune virtuel et de partager la page avec d'autres . Bien que les services de transcodeur puissent être bien intentionnés, il existe à la fois un risque d'abus (suppression de la publicité) et des questions potentielles d'intégrité du contenu dont vous, en tant que propriétaire de site, devez être conscient.

Copies enregistrées localement de pages Web[19659031]Bien que cela ne soit pas courant, nous voyons des balises dans les données mPulse d'Akamai avec des pages servies à partir d'URL `file://`. Il s'agit de pages vues chargées à partir d'une page Web précédemment consultée qui a été enregistrée dans le stockage local de l'appareil. Étant donné que chaque périphérique peut avoir une structure de système de fichiers différente résultant en un nombre infini de « domaines » dans les données d'URL, il n'est généralement pas logique d'essayer de les agréger pour des modèles. Il est prudent de supposer que les propriétaires de sites ne considéreraient pas cela comme un risque ou une préoccupation pour l'entreprise. prestations de service. Il existe deux grandes sous-catégories de services proxy présumés bénins. L'un est les mandataires institutionnelstels qu'un système de bibliothèque universitaire s'abonnant à une publication d'actualités en ligne afin d'accorder l'accès à son corps étudiant. Lorsqu'un étudiant consulte le site, la page peut être fournie à partir d'un nom d'hôte dans le domaine de premier niveau de l'université.
On peut supposer que la plupart des éditeurs ne considéreraient pas cela comme un risque ou une préoccupation commerciale si cela de leur modèle économique. L'autre grand type de proxys bénins sont les sites qui visent à offrir l'anonymat afin que les visiteurs puissent consommer le contenu d'un site Web sans être suivis ou identifiés. L'exemple le plus courant de cette dernière sous-catégorie est le service anonymousbrowser.org. Les utilisateurs de ces services peuvent ou non être bien intentionnés. en fait, la recherche montre que les cas d'utilisation bénins sont de loin les plus courants dans les données de mesure des utilisateurs réels d'Akamai mPulse), il existe certainement des cas où les intentions des scrapers sont malveillantes. Le contenu piraté peut être utilisé pour générer des revenus de diverses manières, allant du simple fait de faire passer le contenu volé pour le sien à la tentative de voler des informations d'identification ou d'autres secrets. Les cas d'utilisation malveillants peuvent nuire à la fois au propriétaire du site et/ou au visiteur du site.

Ad Scraping

Dans le secteur de l'édition, les revenus publicitaires sont essentiels au succès commercial ou à l'échec des sites Web. Bien sûr, vendre des publicités nécessite du contenu que les visiteurs veulent consommer, et certains mauvais acteurs peuvent trouver plus facile de voler ce contenu que de le créer eux-mêmes. Les grattoirs publicitaires peuvent récolter des articles entiers d'un site et les republier sur un domaine de premier niveau différent avec de toutes nouvelles balises publicitaires. Si le grattoir n'est pas suffisamment sophistiqué pour séparer complètement le contenu de la structure de la page, et comprend par exemple le code JavaScript de la page principale, y compris l'extrait de code du chargeur pour votre service d'analyse Web ou RUM, vous pouvez obtenir des balises de données pour ces pages vues.[19659060]Phishing

Le phishing est une tentative frauduleuse visant à amener les utilisateurs à révéler des informations sensibles ou privées telles que des identifiants d'accès, des numéros de carte de crédit, des numéros de sécurité sociale ou d'autres données en usurpant l'identité d'un site de confiance. Pour paraître aussi authentiques que possible, les sites d'hameçonnage sont souvent construits en grattant le site légitime qu'ils visent à usurper l'identité . Encore une fois, si le grattoir n'est pas assez sophistiqué pour séparer complètement le contenu de la structure de la page, et comprend par exemple le code de la page principale, y compris l'extrait de code du chargeur pour votre service d'analyse Web ou RUM, vous pouvez obtenir des balises pour ces pages vues dans mPulse.[19659062]Un message d'alerte de navigateur typique informant l'utilisateur que la page Web qu'il est sur le point de voir est un contenu republié à partir d'un autre site Web qui a été modifié pour inciter le visiteur à interagir avec elle comme si elle était légitime. »/>

A message d'alerte de navigateur typique informant l'utilisateur que la page Web qu'il est sur le point de voir est un contenu republié à partir d'un autre site Web qui a été modifié pour inciter le visiteur à interagir avec elle comme si elle était légitime. ( Grand aperçu)

Piratage de navigateur ou de recherche

Une page Web peut être supprimée et republiée avec du code JavaScript supplémentaire contenant un code d'attaque de détournement de navigateur ou de recherche. Contrairement au phishing, qui incite les utilisateurs à transmettre des données précieuses, ce type d'attaque tente de modifier les paramètres du navigateur . Changer simplement le moteur de recherche par défaut du navigateur pour pointer vers celui dont l'attaquant tire des revenus de résultats de recherche d'affiliation pourrait être rentable pour un mauvais acteur. Si le scraper n'est pas sophistiqué, injectant un nouveau code d'attaque mais ne modifiant pas le code de page principal préexistant, y compris l'extrait du chargeur pour votre service d'analyse Web ou RUM, vous pouvez obtenir des balises pour ces pages vues dans mPulse.

Paywall ou abonnement. Contourner les proxys

Certains services prétendent aider les utilisateurs finaux à accéder aux pages de sites nécessitant des abonnements pour être consultés sans disposer d'une connexion valide. Pour certains éditeurs de contenu, les frais d'abonnement peuvent représenter une part très importante des revenus du site. Pour d'autres, les connexions peuvent être tenues de rester conformes à la loi pour que les utilisateurs consomment du contenu limité par l'âge, la citoyenneté, la résidence ou d'autres critères.

Les services proxy qui contournent (ou tentent de contourner) ces restrictions d'accès posent ]risques financiers et juridiques pour votre entreprise. Subjectivement, bon nombre de ces services semblent se concentrer spécifiquement sur les sites pornographiques, mais tous les propriétaires de sites Web devraient être à l'affût de ces mauvais acteurs.

Un exemple de message indiquant qu'un site Web avec un paywall (où un visiteur doit être abonné et payer pour voir la plupart du contenu) peut s'afficher pour un visiteur qui a atteint sa limite de contenu gratuit. Certains services de republication de contenu annoncent la possibilité de contourner ces limitations. — Un exemple de message qu'un site Web avec un paywall peut afficher à un visiteur qui a atteint sa limite de contenu gratuit. Certains services de republication de contenu annoncent la possibilité de contourner ces limitations. ( Grand aperçu)

Désinformation

En plus d'essayer de tirer profit du grattage du Web, certains domaines imposteurs peuvent être utilisés pour diffuser du contenu qui a été modifié de manière à diffuser intentionnellement de la désinformation, à nuire à la réputation ou à des fins politiques ou autres.[19659073]Gestion des résultats

Maintenant que vous disposez d'un moyen d'identifier et de suivre lorsque des domaines imposteurs republient votre site Web, quelles sont les prochaines étapes ? Les outils sont aussi précieux que notre capacité à les utiliser efficacement, il est donc important de développer une stratégie pour utiliser une solution de suivi de domaine imposteur dans le cadre de vos processus métier. À un niveau élevé, je pense que cela se réduit à prendre des décisions sur un processus de gestion en trois étapes :

Identifier la menace,
Prioriser la menace,
Réparer la menace.

1. Identification des menaces grâce à des rapports réguliers

Une fois que vous avez développé les requêtes de base de données pour extraire les données de domaine d'imposteurs potentiels de vos données d'analyse Web ou de mesure des utilisateurs réels, vous devez examiner les données régulièrement.

Comme point de départ. , je recommanderais un rapport hebdomadaire qui peut être rapidement analysé pour toute nouvelle activité. Un rapport hebdomadaire semble être la meilleure cadence pour détecter les problèmes avant qu'ils ne deviennent trop graves. Un rapport quotidien peut sembler fastidieux et devenir quelque chose de facile à ignorer après un certain temps. Les chiffres quotidiens peuvent également être plus difficiles à interpréter, car vous pouvez examiner un nombre assez faible de pages vues qui peuvent ou non représenter une tendance préoccupante.

D'un autre côté, les rapports mensuels peuvent également entraîner des problèmes. bien avant d'être pris. Un rapport hebdomadaire semble être le bon équilibre pour la plupart des sites et est probablement la meilleure cadence de départ pour un rapport régulier.

2. Catégorisation de la menace potentielle

Comme nous l'avons considéré ci-dessus, tous les domaines imposteurs republiant le contenu de votre site ne sont pas nécessairement de nature malveillante ou ne constituent pas une préoccupation pour votre entreprise. Au fur et à mesure que vous acquérez de l'expérience avec le paysage des données de votre propre site, vous pouvez améliorer vos rapports réguliers en utilisant un code couleur ou en séparant les domaines que vous connaissez et que vous considérez comme non malveillants pour vous aider à vous concentrer sur les domaines problématiques inconnus, nouveaux ou connus qui comptent le plus.

En fonction de vos besoins, vous pouvez créer des tableaux de domaines « acceptables » et « à problème », ou catégoriser les domaines imposteurs selon leur fonction ou leur type (comme le « langage naturel » traduction » ou des catégories « outils de publication de contenu » décrites ci-dessus). Chaque site aura des besoins différents, mais l'objectif est de séparer les domaines problématiques des domaines qui ne le concernent pas.

3. Agir contre les mauvais acteurs

Pour chacune des catégories problématiques que vous identifiez, déterminez les paramètres que vous souhaitez utiliser pour décider comment répondre à la menace :

Quel est le nombre minimal de pages vues avant d'agir ?
Quel est le premier point d'escalade et qui en est responsable ?
Quels parties prenantes au sein de l'entreprise doivent être au courant de l'activité malveillante et quand ?
Les actions à entreprendre sont-elles documentées et examinées par toutes les parties prenantes (dirigeants, juristes, etc.) sur une base régulière ?
Quand des actions sont entreprises (comme le dépôt d'un DMCA Takedown » avec le contrevenant ou son fournisseur de services ou la mise à jour des règles du pare-feu d'application Web pour tenter de limiter l'accès aux voleurs de contenu) les résultats de ces actions sont-ils suivis et reconnus ?
Comment les
l'efficacité de ces actions être su au fil du temps aux chefs d'entreprise exécutifs ?

Même si vous ne parvenez pas à écraser chaque republication malveillante du contenu de votre site, vous devez toujours mettre en place un processus solide pour gérer les risques comme tout autre risque de les affaires. Il générera confiance et autorité auprès de vos partenaires commerciaux, investisseurs, employés et contributeurs. grattoirs Web pour republier le contenu de votre site sur leurs serveurs. Bon nombre de ces domaines imposteurs sont en fait des services inoffensifs qui aident les utilisateurs finaux ou vous aident de diverses manières productives.

Dans d'autres cas, les domaines imposteurs ont des motifs malveillants, soit pour voler du contenu à des fins lucratives, soit pour le manipuler d'une certaine manière. qui cause un préjudice à votre entreprise ou au visiteur de votre site. L'analyse Web ou les données RUM sont votre arme secrète pour vous aider à identifier tout domaine imposteur potentiellement malveillant qui nécessite une action immédiateainsi que pour mieux comprendre la prévalence des domaines les plus bénins. Les données que vous collectez exploitent l'analyse Web ou la position du service RUM en tant qu'observateur dans le propre navigateur du visiteur pour voir ce que les outils de surveillance et de reporting de votre plate-forme ne peuvent pas.

En analysant les données au fil du temps, vous pouvez en apprendre de plus en plus sur les domaines imposteurs. et leurs intentions afin de mieux informer votre entreprise des risques qu'ils font courir à votre réputation et à l'expérience de vos visiteurs, et développer et appliquer des mécanismes pour protéger votre propriété intellectuelle.

Pour en savoir plus sur Smashing Magazine

(vf, il)

Source link

Blog ARC Optimizer

septembre 20, 2021

Les domaines imposteurs republientils votre site Web ? — fracassant