Fermer

avril 1, 2024

Comment empêcher les robots légitimes et illégitimes d’explorer et de gratter votre site

Comment empêcher les robots légitimes et illégitimes d’explorer et de gratter votre site


Martech Zone continue de gagner en popularité ces dernières semaines… et avec elle, elle devient également un site populaire auprès des pirates et des robots. La semaine dernière, ma société d’hébergement m’a alerté que mon site était frappé par ce qui semblait presque être un DDoS attaque, mais elle provenait d’un agent utilisateur appelé Claudebot. Cela frappait tellement mon site qu’ils ont dû le déplacer vers un nouveau serveur, ce qui aurait coûté six fois plus cher. Je n’ai aucune idée de ce qu’est ce bot ni de qui l’a déclenché sur mon site, alors mon hébergeur m’a aidé à le bloquer à l’aide d’un .htaccess déposer.

Les sites Web sont constamment visités par différents types de les robots, certains légitimes et d’autres malveillants. Ces robots peuvent consommer d’importantes ressources de serveur, ralentir les performances d’un site Web et même récupérer du contenu précieux à des fins d’analyse concurrentielle. Lorsqu’un bot ralentit votre site, cela impacte l’expérience utilisateur (UX) de vos visiteurs et peut avoir de graves conséquences classements des moteurs de recherche si c’est en cours.

En tant qu’entreprise, il est essentiel de comprendre comment bloquer les robots légitimes et illégitimes pour protéger votre site Web et garantir des performances optimales à vos visiteurs humains.

Bloquer les robots légitimes

Les robots légitimes, tels que ceux des moteurs de recherche et Référencement outils, peut mettre à rude épreuve les ressources de votre serveur si rien n’est fait. Vous ne souhaiterez peut-être pas non plus qu’un robot outil de référencement capture et fournisse des informations détaillées sur votre contenu et vos pages de sa plate-forme à vos concurrents.

Bien que ces robots servent à quelque chose, leur comportement d’exploration agressif peut avoir un impact négatif sur les performances de votre site Web. Vous pouvez utiliser votre fichier .htaccess pour bloquer des robots spécifiques en fonction de leurs chaînes d’agent utilisateur afin d’atténuer ce problème.

Comment bloquer les robots connus à l’aide de .htaccess

Bloquer les robots légitimes peut aider :

  1. Réduisez l’utilisation de la bande passante et des ressources
  2. Empêcher le scraping de contenu
  3. Améliorer la précision des analyses
  4. Garantir le respect des conditions d’utilisation des outils tiers

Voici une section de mon .htaccess fichier dédié au blocage des robots :

<IfModule mod_rewrite.c>
  RewriteEngine on
  RewriteBase /
  RewriteCond %{HTTP_USER_AGENT} ("Ahrefs"|"AhrefsBot/6.1"|"AspiegelBot"|"Baiduspider"|"BLEXBot"|"Bytespider"|"claudebot"|"Datanyze"|"Kinza"|"LieBaoFast"|"Mb2345Browser"|"MicroMessenger"|"OPPO\sA33"|"PetalBot"|"SemrushBot"|"serpstatbot"|"spaziodati"|"YandexBot"|"YandexBot/3.0"|"zh-CN"|"zh_CN") [NC]
  RewriteRule ^ - [F,L]
</IfModule>
  1. <IfModule mod_rewrite.c> et </IfModule>: Ces directives garantissent que les règles de réécriture ci-jointes ne sont traitées que si le module Apache mod_rewrite est disponible et chargé. C’est une bonne pratique pour éviter les erreurs si le module n’est pas activé.
  2. RewriteEngine on: Cette ligne active le moteur de réécriture, permettant l’utilisation de règles de réécriture.
  3. RewriteBase /: Ceci définit l’URL de base pour les règles de réécriture. Dans ce cas, il est défini sur le répertoire racine (/).
  4. RewriteCond %{HTTP_USER_AGENT} ("AhrefsBot/6.1"|"Ahrefs"|"Baiduspider"|"BLEXBot"|"SemrushBot"|"claudebot"|"YandexBot/3.0"|"Bytespider"|"YandexBot"|"Mb2345Browser"|"LieBaoFast"|"zh-CN"|"MicroMessenger"|"zh_CN"|"Kinza"|"Datanyze"|"serpstatbot"|"spaziodati"|"OPPO\sA33"|"AspiegelBot"|"PetalBot") [NC]: Cette ligne définit une condition pour la règle de réécriture. Il vérifie si la chaîne de l’agent utilisateur de la requête entrante correspond à l’un des noms ou modèles de robot spécifiés. Le [NC] L’indicateur à la fin rend la comparaison insensible à la casse. La condition utilise le %{HTTP_USER_AGENT} variable pour récupérer la chaîne de l’agent utilisateur à partir des en-têtes de requête. Les noms et modèles de robots sont placés entre parenthèses et séparés par le caractère barre verticale (|), qui agit comme un opérateur « OU ». Cela signifie que si la chaîne de l’agent utilisateur correspond à l’un des robots répertoriés, la condition sera considérée comme remplie.
  5. RewriteRule ^ - [F,L]: Cette ligne définit la règle de réécriture qui se déclenche lorsque la condition précédente est remplie. Le ^ Le symbole correspond au début de l’URL de la demande et le - (tiret) est utilisé comme espace réservé pour une chaîne de substitution vide. Le [F,L] les indicateurs à la fin spécifient les actions à entreprendre lorsque la règle correspond :

Liste des robots

Voici une liste des robots que j’ai bloqués ainsi que s’ils sont connus ou inconnus.

  • AhrefsBot/6.1 et Ahrefs: robots d’exploration Web utilisés par Ahrefs, un outil de référencement et d’analyse de sites Web. Ils explorent les sites Web pour collecter des données pour l’analyse des backlinks, la recherche de mots clés et les audits de sites.
  • AspiegelBot: Robot d’exploration Web utilisé par Aspiegelune société autrichienne qui fournit des services de web scraping et d’extraction de données.
  • Araignée Baidus: Robot d’exploration Web utilisé par Baidu, un moteur de recherche chinois. Il indexe les pages Web pour les résultats de recherche de Baidu.
  • BLEXBot: Robot d’exploration Web utilisé par une société de référencement suédoise. Il est utilisé à des fins d’analyse de sites Web et de référencement.
  • Araignées proies: Bot inconnu ou robot SPAM connu.
  • fermera: Bot inconnu ou robot SPAM connu.
  • Datanyze: Robot d’exploration Web utilisé par Datanyzeune entreprise qui fournit des données technologiques et des informations commerciales.
  • La prévention: Bot inconnu ou robot SPAM connu.
  • AmourBaoRapide: Bot inconnu ou robot SPAM connu.
  • Mb2345Navigateur: Bot inconnu ou robot SPAM connu.
  • MicroMessenger: Agent utilisateur pour WeChatune application chinoise populaire de messagerie et de médias sociaux développée par Tencent.
  • OPPO A33: Bot inconnu ou robot SPAM connu.
  • PétaleBot: Robot d’exploration Web utilisé par Aspiegelune société autrichienne qui propose des services d’analyse et de surveillance de sites Web.
  • SemrushBot: Robot d’exploration Web utilisé par Semrush, une plateforme de gestion de référencement et de visibilité en ligne. Il explore les sites Web pour collecter des données pour la recherche de mots clés, les audits de sites et l’analyse des concurrents.
  • serpstatbot: Robot d’exploration Web utilisé par Serpstat, une plateforme de référencement tout-en-un. Il est utilisé pour l’analyse de sites Web, la recherche de mots clés et l’analyse des concurrents.

  • espace de données: robots d’exploration Web utilisés par Données spatialesune entreprise italienne qui fournit des services de web scraping et d’extraction de données.
  • YandexBot/3.0 et YandexBot: robots d’exploration Web utilisés par Yandex, une société russe de moteurs de recherche et de technologie. Ils explorent et indexent les pages Web pour les résultats de recherche de Yandex.
  • zh-CN et zh_CN: Bot inconnu ou robot SPAM connu.

J’ai fait de mon mieux pour les rechercher, alors faites-moi savoir si vous voyez quelque chose d’inexact. Lorsque je ne parvenais pas à identifier les informations, j’ai marqué le bot comme « bot inconnu ou bot SPAM connu » pour éviter de partager des informations potentiellement inexactes.

Identifier et bloquer les robots illégitimes

Les robots illégitimes, tels que ceux utilisés pour le scraping de contenu, le spam ou les activités malveillantes, tentent souvent de se déguiser pour éviter d’être détectés. Ils peuvent utiliser des techniques simples comme l’imitation d’agents utilisateurs légitimes, la rotation des agents utilisateurs, l’utilisation de navigateurs sans tête ou des techniques plus complexes comme la distribution de requêtes sur plusieurs adresses IP.

Pour identifier et bloquer les robots illégitimes, envisagez les stratégies suivantes :

  1. Analysez les modèles de trafic : Surveillez le trafic de votre site Web à la recherche de modèles suspects, tels que des taux de requêtes élevés provenant d’adresses IP uniques, des chaînes d’agent utilisateur inhabituelles ou un comportement de navigation atypique.
  2. Implémenter une limitation de débit : Configurez une limitation de débit en fonction des adresses IP ou d’autres caractéristiques des requêtes pour empêcher les robots d’effectuer des requêtes excessives et de consommer les ressources du serveur.
  3. Utilisez des CAPTCHA : Mettre en œuvre CAPTCHA ou d’autres mécanismes de défi-réponse pour vérifier les utilisateurs humains et dissuader les robots automatisés.
  4. Surveillez et bloquez les plages d’adresses IP suspectes : Surveillez les journaux de votre serveur et bloquez les plages d’adresses IP qui présentent systématiquement un comportement semblable à celui d’un robot.
  5. Utilisez le rendu côté serveur ou la livraison de données basée sur une API : Rendez le scraping plus difficile en rendant le contenu côté serveur ou en fournissant des données via des API, plutôt que de servir du HTML brut.
  6. Mettez régulièrement à jour les règles de blocage des robots : Surveillez et adaptez en permanence vos règles de blocage des robots en fonction du comportement observé des robots, car les robots illégitimes peuvent faire évoluer leurs techniques au fil du temps.

Le blocage des robots légitimes et illégitimes est crucial pour protéger les performances, les ressources et le contenu de votre site Web. En mettant en œuvre des règles stratégiques .htaccess et en employant diverses techniques de détection et d’atténuation des robots, vous pouvez vous défendre efficacement contre l’impact négatif des robots sur votre site Web.

N’oubliez pas que le blocage des robots est un processus continu qui nécessite une surveillance et une adaptation régulières. Restez vigilant et proactif dans vos efforts de blocage des robots pour garantir une expérience fluide et sécurisée à vos visiteurs humains tout en protégeant votre site Web des effets néfastes des robots.




Source link