Détection de la manipulation des liens et du spam avec une autorité de domaine
Il y a plus de 7 ans, alors que j'étais encore employé chez Virante, Inc. (maintenant Hive Digital ), j'ai écrit un article sur Moz, décrivant quelques méthodes simples pour détecter la manipulation de backlink en comparant son profil de backlink à un autre. modèle idéal basé sur Wikipedia . À l'époque, les recherches que je pouvais effectuer étaient limitées car j'étais un consommateur d'API, je n'avais pas accès à des métriques, des mesures et des méthodologies plus approfondies pour identifier les anomalies dans les profils de backlink. Nous avons utilisé ces techniques pour détecter la manipulation de liens en amont avec des outils tels que Remove'em et Penguin Risk, mais elles ont toujours été handicapées par les limitations des API destinés aux consommateurs. De plus, ils n'ont pas évolué. C’est une chose de rassembler tous les backlinks d’un site, même d’un grand site, et de juger chaque type de lien en fonction du type de source, de la qualité, du texte d’ancrage, etc. Des rapports comme celui-ci sont accessibles à partir de dizaines de fournisseurs si vous êtes prêt à attendre. quelques heures pour que le rapport soit complet. Mais comment procédez-vous pour 30 000 milliards de liens chaque jour?
Depuis le lancement de Link Explorer et ma résidence ici à Moz, j'ai le luxe de disposer de données beaucoup moins filtrées, ce qui me donne une image beaucoup plus précise et plus claire des outils disponibles pour les mainteneurs d'index de backlink. identifier et contrer la manipulation. Bien que je n’ai aucunement l’intention de dire que toutes les manipulations peuvent être détectées, je voudrais décrire quelques-unes des innombrables méthodologies surprenantes permettant de détecter le spam.
La méthodologie générale
Il n'est pas nécessaire d'être un informaticien ni un mathématicien pour comprendre cette pratique simple d'identification du spam de lien. S'il est certain que beaucoup de calculs sont utilisés dans l'exécution de mesures, de tests et de la construction de modèles pratiques, l'essentiel est tout à fait compréhensible.
La première étape consiste à obtenir un bon échantillon aléatoire de liens sur le Web, que vous pouvez lire ici (19459004). Mais supposons que vous ayez déjà terminé cette étape. Ensuite, pour toute propriété de ces liens aléatoires (DA, texte d'ancrage, etc.), vous déterminez ce qui est normal ou attendu. Enfin, vous recherchez les valeurs aberrantes et voyez si celles-ci correspondent à quelque chose d'important, comme les sites manipulant le graphe de liens ou les sites exceptionnellement bons. Commençons par un exemple simple, la décroissance des liens.
Décomposition des liens et spam de liens
La décroissance des liens est l'apparition naturelle de liens qui se détachent du Web ou changent d'URL. Par exemple, si vous obtenez des liens après avoir envoyé un communiqué de presse, vous vous attendez à ce que certains de ces liens disparaissent éventuellement à mesure que les pages sont archivées ou supprimées pour être anciennes. Et si vous deviez obtenir un lien d'un article de blog, vous pourriez vous attendre à ce qu'un lien de page d'accueil apparaisse sur le blog jusqu'à ce que ce message soit repoussé à la deuxième ou à la troisième page par de nouveaux messages.
Mais si vous achetiez vos liens? Que faire si vous possédez un grand nombre de domaines et que tous les sites sont liés les uns aux autres? Et si vous utilisez un PBN? Ces liens ont tendance à ne pas pourrir. Exercer un contrôle sur vos liens entrants signifie souvent que vous les empêchez de se détériorer. Ainsi, nous pouvons créer une hypothèse simple:
Hypothèse : Le taux de dégradation des liens des sites manipulant le graphe de liens sera différent de celui des sites dotés de profils de liens naturels.
La méthodologie pour tester cette hypothèse est identique à celle décrite précédemment. Nous découvrons d’abord ce qui est naturel. À quoi ressemble le taux de désintégration des liens d'un site aléatoire? Eh bien, nous obtenons simplement un groupe de sites et enregistrons à quelle vitesse les liens sont supprimés (nous visitons une page et voyons qu’un lien a disparu) par rapport au nombre total de liens. Nous pouvons alors rechercher des anomalies.
Dans ce cas de recherche d'anomalies, je vais rendre les choses vraiment faciles. Pas de statistiques, pas de calculs, juste un rapide coup d'œil sur ce qui apparaît lorsque nous trions pour la première fois par le plus bas taux de décroissance, puis par l'autorité de domaine la plus élevée, pour voir qui se trouve à la fin du spectre.
Success! Chaque exemple que nous voyons d'un bon score de DA, mais 0 decay de lien semble être alimenté par un réseau de lien de quelque sorte. C'est le Aha! moment de la science des données qui est tellement amusant. Ce qui est particulièrement intéressant, c’est que nous trouvons du spam aux deux extrémités de la distribution – c’est-à-dire que les sites qui présentent un taux de dégradation de 0 ou de près de 100% ont tendance à être du spam. Le premier type a tendance à faire partie d'un réseau de liens, le second à spammer leurs liens retour sur des sites Web, alors que leurs liens sont rapidement disséminés vers d'autres pages.
Bien sûr, nous travaillons maintenant dur à la construction d'un modèle qui tient compte de cela et réduit avec précision l'autorité de domaine par rapport à la gravité du spam de lien. Mais vous demandez peut-être …
Ces sites ne se classent pas dans Google – pourquoi ont-ils des DA décents en premier lieu?
Eh bien, il s'agit d'un problème courant avec les ensembles d'entraînement. DA est formé sur les sites classés dans Google afin que nous puissions déterminer qui sera supérieur à celui. Cependant, historiquement, nous n'avons pas (et personne à ma connaissance dans notre secteur n'a pris en compte) les URL aléatoires qui ne se classent pas du tout. Nous sommes en train de résoudre ce problème dans le nouveau modèle DA devant être lancé au début du mois de mars, restez à l'écoute, ceci représente une amélioration majeure par rapport au calcul de la DA!
Spam Distribution du score et spam de lien
L'un des ajouts les plus intéressants à la prochaine Domain Authority 2.0 est l'utilisation de notre score de spam. Le score de spam de Moz est une mesure aveugle aux liens (nous n'utilisons pas de liens du tout) qui prédit la probabilité qu'un domaine soit indexé dans Google. Plus le score est élevé, plus le site est dégradé.
Maintenant, nous pourrions ignorer tous les liens des sites avec des scores de spam supérieurs à 70 et l’appeler un jour, mais il s'avère que des schémas fascinants ont été laissés par des schémas de manipulation de liens courants qui attendent d’être découverts en utilisant cette simple méthodologie d’utilisation. un échantillon aléatoire d'URL pour déterminer à quoi ressemble un profil de backlink normal, puis pour voir s'il existe des anomalies dans la manière dont le score de spam est réparti entre les backlinks d'un site. Laissez-moi vous en montrer un seul.
Il s'avère qu’il est très difficile d’agir au naturel. Même les meilleures tentatives échouent souvent, de même que ce réseau de spams de liens particulièrement pernicieux. Ce réseau me hantait depuis 2 ans, car il incluait un annuaire des 1 000 000 meilleurs sites. Si vous étiez l’un de ces sites, vous pouviez voir de 200 à 600 liens suivis apparaître dans votre profil de lien retour. Je l'ai appelé le réseau "The Globe". Il était facile de regarder le réseau et de voir ce qu’il faisait, mais pourrions-nous le repérer automatiquement afin de pouvoir dévaluer d’autres réseaux comme celui-ci à l’avenir? Lorsque nous avons examiné le profil des liens des sites inclus dans le réseau, la distribution Spam Score s’allumait comme un arbre de Noël.
La plupart des sites reçoivent la majorité de leurs backlinks provenant de domaines à faible score de spam et sont de moins en moins nombreux à mesure que le score de spam augmente. Mais ce réseau de liens ne pouvait pas se cacher car nous avons pu détecter les problèmes de qualité des sites de leur réseau avec Spam Score. Si nous nous contentions d'ignorer les mauvais liens de score de spam, nous n'aurions jamais découvert ce problème. Au lieu de cela, nous avons trouvé un excellent classificateur permettant de rechercher les sites susceptibles d'être pénalisés par Google en raison de mauvaises pratiques de création de liens.
Distribution de DA et spam de lien
Nous pouvons trouver des modèles similaires entre les sites avec la distribution de l'autorité de domaine entrante. Il est courant que les entreprises cherchant à augmenter leur classement établissent des normes de qualité minimales dans leurs campagnes de sensibilisation, souvent à partir de 30 ans. Un résultat regrettable en est que ce qui reste sont des exemples criants de sites avec des profils de liens manipulés.
Permettez-moi de prendre un moment et d'être clair ici. Un profil de lien manipulé n'est pas nécessairement contraire aux directives de Google. Si vous effectuez une campagne de relations publiques ciblée, il est raisonnable de s’attendre à ce qu'une telle distribution se produise sans aucune tentative de manipulation du graphique. Cependant, la vraie question est de savoir si Google souhaite que les sites qui effectuent une telle diffusion soient plus performants. Dans le cas contraire, cet exemple flagrant de manipulation de lien est assez facile à atténuer, voire ignorer, pour Google.
Un graphe de lien normal pour un site qui ne cible pas de domaines à haute équité de lien aura la majorité de leurs liens provenant de sites DA0-10, un peu moins pour les sites DA10-20, etc. et ainsi de suite jusqu'à ce qu'il n'y ait presque plus de liens depuis DA90 +. Cela a du sens, car le Web compte beaucoup plus de sites de DA que de hauts. Mais tous les sites ci-dessus ont des distributions de liens anormales, ce qui facilite la détection et la correction – à l'échelle – de la valeur des liens.
J'aimerais être clair: ce ne sont pas nécessairement des exemples de violation des directives de Google. Cependant, ce sont des manipulations du graphe de lien. À vous de déterminer si vous pensez que Google prend le temps de différencier la manière dont la sensibilisation a été effectuée et qui a entraîné une distribution de lien anormale.
Ce qui ne fonctionne pas
Pour chaque type de méthode de détection de manipulation de lien que nous découvrons, nous en supprimons des dizaines de plus. Certaines d’entre elles sont en fait assez surprenantes. Permettez-moi d'écrire sur un seul parmi les nombreux.
Le premier exemple surprenant était le rapport de nofollow sur les liens suivants. Il semble assez simple que les commentaires, forums et autres types de spammeurs accumulent beaucoup de liens non suivis, laissant ainsi un motif facile à discerner. Eh bien, il s'avère que ce n'est pas vrai du tout.
Le ratio de nofollow sur les liens suivants se révèle un indicateur médiocre, car les sites populaires comme facebook.com ont souvent un ratio plus élevé que les simples spammeurs de commentaires. Cela est probablement dû à l'utilisation de widgets et de balises et à l'utilisation légitime de sites populaires tels que facebook.com dans les commentaires diffusés sur le Web. Bien sûr, ce n'est pas toujours le cas. Certains sites proposent des liens 100% nofollow et un grand nombre de domaines de liaison racine. Ces anomalies, comme "Comment Spammer 1", peuvent être détectées assez facilement, mais en tant que mesure générale, le rapport ne sert pas de bon classificateur pour le spam ou le blocage.
Alors, quelle est la prochaine étape?
Moz parcourt en permanence le graphe de liens à la recherche de moyens d’améliorer l’autorité de domaine en utilisant tout, de l’algèbre linéaire de base aux réseaux de neurones complexes. L’objectif visé est simple: nous voulons établir la meilleure métrique de l’autorité de domaine à ce jour. Nous voulons une mesure à laquelle les utilisateurs peuvent faire confiance à long terme pour éliminer le spam, tout comme Google (et vous aider à déterminer quand vous ou vos concurrents repoussez les limites) tout en maintenant ou en améliorant les corrélations avec les classements. Bien entendu, nous ne prévoyons pas éliminer tous les spams – personne ne peut le faire. Mais nous pouvons faire un meilleur travail. Sous l'impulsion de l'incomparable Neil Martinsen-Burrell notre métrique sera la seule dans l'industrie en tant que méthode canonique pour mesurer la probabilité qu'un site se classe dans Google.
Nous lançons Domain Authority 2.0 le 5 mars! Consultez nos ressources utiles ici ou inscrivez-vous à notre webinaire ce jeudi 21 février pour plus d'informations sur la manière de communiquer de tels changements aux clients et aux parties prenantes:
Source link