mai 22, 2018

Backind Blindspots: L'état des Robots.txt

Ici, chez Moz, nous nous sommes engagés à rendre Link Explorer aussi similaire à Google que possible, notamment dans la façon dont nous explorons le Web. J'ai discuté dans les articles précédents quelques métriques que nous utilisons pour vérifier cette performance mais aujourd'hui je voulais passer un peu de temps à parler de l'impact de robots.txt et à explorer le web.

La plupart d'entre vous connaissent robots.txt comme étant la méthode par laquelle les webmasters peuvent demander à Google et à d'autres robots de ne visiter que certaines pages du site. Les webmasters peuvent être sélectifs, permettant à certains robots de visiter certaines pages tout en interdisant l'accès aux autres robots. Cela pose un problème pour des sociétés comme Moz, Majestic et Ahrefs : nous essayons d'explorer le Web comme Google, mais certains sites refusent l'accès à nos robots tout en autorisant Googlebot. Alors, pourquoi exactement cela compte-t-il?

Pourquoi est-ce important?

Graphique montrant comment les crawlers sautent d'un lien à un autre

Lorsque nous explorons le Web, si un bot rencontre un fichier robots.txt, il est bloqué pour l'exploration de contenu spécifique. Nous pouvons voir les liens qui pointent vers le site, mais nous sommes aveugles quant au contenu du site lui-même. Nous ne pouvons pas voir les liens sortants de ce site. Cela conduit à une déficience immédiate du graphe de liens, du moins en termes de ressemblance avec Google (si Googlebot n'est pas bloqué de la même manière).

Mais ce n'est pas le seul problème. Il y a une défaillance en cascade causée par le blocage des bots par le fichier robots.txt sous la forme de hiérarchisation de l'exploration . Comme un robot explore le Web, il découvre les liens et doit hiérarchiser les liens à explorer ensuite. Disons que Google trouve 100 liens et priorise les 50 premiers à explorer. Cependant, un bot différent trouve ces mêmes 100 liens, mais est bloqué par robots.txt à partir de l'analyse de 10 des 50 premières pages. Au lieu de cela, ils sont forcés de ramper autour de ceux-ci, ce qui les oblige à choisir une autre page de 50 pages à explorer. Cet ensemble différent de pages crawlées renverra, bien sûr, un ensemble différent de liens. Lors de la prochaine ronde d'exploration, Google aura non seulement un ensemble différent qu'il est autorisé à explorer, mais l'ensemble lui-même sera différent car il a d'abord exploré différentes pages.

Longue histoire courte, tout comme le papillon proverbiale qui bat des ailes menant finalement à un ouragan, de petits changements dans les robots.txt qui empêchent certains robots et permettent aux autres d'aboutir à des résultats très différents par rapport à ce que Google voit réellement.

Alors, comment allons-nous?

Vous savez que je n'allais pas vous laisser pendre. Faisons des recherches. Analysons les 1 000 000 premiers sites Web sur Internet selon Quantcast et déterminons quels robots sont bloqués, à quelle fréquence et quel impact ils peuvent avoir.

Méthodologie

La méthodologie est assez simple.

Télécharger le Quantcast Top Million
Télécharger le fichier robots.txt si disponible sur tous les premiers millions de sites
Analyser le fichier robots.txt pour déterminer si la page d'accueil et les autres pages sont disponibles
sites bloqués
Collecter le nombre total de pages sur site liées aux sites bloqués.
Signaler les différences entre les robots d'exploration.

Nombre total de sites bloqués

La première et la plus facile à rapporter est le nombre de sites qui bloquent des robots individuels (Moz, Majestic, Ahrefs) tout en autorisant Google. La plupart des sites qui bloquent l'un des principaux moteurs de recherche SEO les bloquent tous. Ils formulent simplement robots.txt pour autoriser les principaux moteurs de recherche tout en bloquant le trafic des autres robots. Le bas est meilleur.

Graphique à barres montrant le nombre de sites bloquant chaque outil de référencement dans robots.txt

Parmi les sites analysés, 27 123 bloquaient MJ12Bot (Majestic), 32 982 Ahrefs bloqués et 25 427 Moz bloqués. Cela signifie que parmi les principaux robots de l'industrie, Moz est le moins susceptible d'être détourné d'un site qui permet à Googlebot. Mais qu'est-ce que cela signifie vraiment?

Nombre total de RLD bloqués

Comme mentionné précédemment, un gros problème avec des entrées disparates de robots.txt est qu'il arrête le flux de PageRank. Si Google peut voir un site, il peut faire passer l'équité de lien des domaines de référence à travers les domaines sortants du site vers d'autres sites. Si un site est bloqué par robots.txt, c'est comme si les voies de circulation sortantes sur toutes les routes entrant dans le site sont bloquées. En comptant toutes les voies de circulation entrantes, nous pouvons avoir une idée de l'impact total sur le graphe de liens.

Selon nos recherches, Majestic s'est retrouvé dans des impasses sur 17 787 118 domaines référents, Ahrefs sur 20 072 690 et Moz sur 16 598 365. Une fois de plus, le profil robots.txt de Moz ressemblait le plus à celui de Google. Mais les domaines de référence ne sont pas le seul problème auquel nous devrions nous intéresser

Nombre total de pages bloquées

La plupart des pages sur le web n'ont que des liens internes. Google n'est pas intéressé par la création d'un graphique de liens – ils sont intéressés par la création d'un moteur de recherche. Ainsi, un bot conçu pour agir comme Google doit être tout aussi concerné par les pages qui ne reçoivent que des liens internes car ce sont celles qui reçoivent des liens externes. Une autre mesure que nous pouvons mesurer est le nombre total de pages bloquées en utilisant le site de Google: interroger pour estimer le nombre de pages auxquelles Google a accès qu'un robot différent ne le fait pas. Alors, comment les robots d'exploration concurrents se comportent-ils? Lower est meilleur

Une fois de plus, Moz brille sur cette métrique. Ce n'est pas seulement que Moz est bloqué par moins de sites – Moz est bloqué par des sites moins importants et moins importants. Majestic rate l'occasion de parcourir 675 381 982 pages, Ahrefs manque 732 871 714 et Moz rate 658 015 885. Il y a une différence de presque 80 millions de pages entre Ahrefs et Moz, juste dans le top million de sites sur le web.

Les sites uniques bloqués

La plupart des robots.txt interdisent de faire face à Moz, Majestic, et Ahrefs sont simplement des blocs de couverture de tous les robots qui ne représentent pas les principaux moteurs de recherche. Cependant, nous pouvons isoler les moments où les robots spécifiques sont nommés délibérément pour l'exclusion tandis que les concurrents restent. Par exemple, combien de fois Moz est-il bloqué alors qu'Ahrefs et Majestic sont autorisés? Quel bot est le plus distingué? Lower est meilleur

Ahrefs est distingué par 1201 sites, Majestic par 7152 et Moz par 904. Il est compréhensible que Majestic ait été distingué, étant donné qu'ils ont été exploitation d'un très grand index de liaison pendant de nombreuses années, une décennie ou plus. Il a fallu Moz 10 ans pour accumuler 904 blocs robots.txt individuels, et Ahrefs a pris 7 ans pour accumuler 1204. Mais permettez-moi de donner quelques exemples de pourquoi cela est important.

Si vous vous intéressez aux liens de name.com, hypermart.net, ou eclipse.org, vous ne pouvez pas compter uniquement sur Majestic.

Si vous vous intéressez aux liens de popsugar.com, dict.cc, ou bookcrossing.com, vous ne pouvez pas compter uniquement sur Moz.

Si vous vous souciez des liens de dailymail.co.uk, patch.com, ou getty.edu, vous ne pouvez pas compter uniquement sur Ahrefs.

Et peu importe ce que vous faites ou quel fournisseur vous utilisez, vous pouvez liens de yelp.com, who.int, ou findarticles.com.

Conclusions

Bien que DotBot, le robot d'exploration de Moz, bénéficie du profil robots.txt le plus proche de Google parmi les trois principaux index de liaison, il reste encore beaucoup à faire. Nous travaillons très dur sur la politesse des robots pour nous assurer que nous ne sommes pas un fardeau pour les webmasters, ce qui nous permet d'explorer le web d'une manière plus proche de Google. Nous continuerons à travailler plus pour améliorer nos performances sur le Web et vous apporter le meilleur indice de backlink possible.

Merci à Dejan SEO pour le magnifique graphe de lien utilisé dans l'image d'en-tête et Mapt pour l'image initiale utilisée dans les diagrammes.

Source link

Blog ARC Optimizer

mai 22, 2018

Backind Blindspots: L'état des Robots.txt

Pourquoi est-ce important?