Fermer

novembre 28, 2018

Utilisation d'un nouveau modèle de corrélation pour prévoir les classements futurs avec autorité de page


Les études de corrélation sont un élément essentiel de la communauté de l'optimisation des moteurs de recherche depuis de nombreuses années. Chaque fois qu'une nouvelle étude est publiée, un groupe de défaitistes semble sortir magiquement du bricolage pour nous rappeler la seule chose dont ils se souviennent des statistiques du lycée: cette "corrélation ne signifie pas causalité". Ils ont bien sûr raison dans leurs protestations et, à leur crédit, et malheureusement, nombre de fois, il semble que ceux qui réalisent les études de corrélation ont oublié ce simple aphorisme.

Nous recueillons un résultat de recherche. Nous commandons ensuite les résultats en fonction de différentes mesures, telles que le nombre de liens. Enfin, nous comparons les ordres des résultats de la recherche d'origine avec ceux produits par les différentes métriques. Plus elles sont proches, plus la corrélation entre les deux est élevée.

Cela étant dit, les études de corrélation ne sont pas tout à fait infructueuses du simple fait qu'elles ne révèlent pas nécessairement des relations de cause à effet (c.-à-d. Des facteurs de classement réels). Ce que les études de corrélation découvrent ou confirment sont corrélats .

Les corrélats sont simplement des mesures qui partagent une relation avec la variable indépendante (dans ce cas, l'ordre des résultats de la recherche sur une page). Par exemple, nous savons que les nombres de liaisons en amont sont des corrélats de rang. Nous savons également que les parts sociales sont des corrélats du rang.

Les études de corrélation nous fournissent également direction de la relation. Par exemple, les ventes de crème glacée sont corrélées avec la température et les vestes négatives avec la température – c’est-à-dire que lorsque la température monte, les ventes de crème glacée augmentent mais l’hiver les ventes de blousons baissent.

Enfin, les études de corrélation peuvent nous aider à exclure les facteurs de classement proposés. Ceci est souvent négligé, mais c'est une partie extrêmement importante des études de corrélation. Une recherche qui donne un résultat négatif est souvent tout aussi utile qu'une recherche qui produit un résultat positif. Nous avons pu exclure de nombreux types de facteurs potentiels – tels que la densité de mots-clés et la balise méta-mots-clés – à l'aide d'études de corrélation.

Malheureusement, la valeur des études de corrélation a tendance à s'arrêter là. En particulier, nous voulons toujours savoir si un corrélat provoque le classement ou s'il est fallacieux . Spurious est juste un mot à la sonorité sophistiquée pour "faux" ou "faux". Un bon exemple de relation fallacieuse serait que les ventes de crème glacée provoquent une augmentation du nombre de noyades. En réalité, la chaleur de l’été augmente à la fois les ventes de crème glacée et les baigneurs. Que nager peut causer des noyades. Ainsi, alors que les ventes de crème glacée sont une corrélation de la noyade, elles sont * fictives *. Elles ne provoquent pas la noyade.

Comment pouvons-nous nous attaquer à la différence entre les relations causales et fausses? Une chose que nous savons est qu'une cause se produit avant son effet, ce qui signifie qu'une variable causale devrait prédire un changement futur.

Un modèle alternatif pour les études de corrélation

Je propose une autre méthodologie pour mener des études de corrélation. Plutôt que de mesurer la corrélation entre un facteur (comme des liens ou des actions) et un SERP, nous pouvons mesurer la corrélation entre un facteur et l'évolution du SERP au fil du temps .

Le processus fonctionne comme suit:

  1. Recueillir un SERP le premier jour
  2. Recueillir le nombre de liens pour chacune des URL de ce SERP
  3. Rechercher toutes les URL non conformes aux liens; par exemple, si la position 2 a moins de liens que la position 3
  4. Noter cette anomalie
  5. Recueillir le même SERP en 14 jours
  6. Enregistrer si l'anomalie a été corrigée (c'est-à-dire que la position 3 surpasse la position 2)
  7. Répétez l'opération sur dix mille mots-clés et testez divers facteurs (backlinks, parts sociales, etc.)

Quels sont les avantages de cette méthodologie? En regardant l'évolution dans le temps, nous pouvons voir si le facteur de classement (corrélé) est une fonction avancée ou en retard . Une fonction en retard peut automatiquement être exclue en tant que causale . Un facteur déterminant peut potentiellement être un facteur causal .

Nous recueillons un résultat de recherche. Nous enregistrons où le résultat de la recherche diffère des prévisions attendues d'une variable particulière (comme les liens ou les partages sociaux). Nous collectons ensuite le même résultat deux semaines plus tard pour voir si le moteur de recherche a corrigé les résultats erronés.

En suivant cette méthodologie, nous avons testé 3 différents corrélats communs produits par les études de facteurs de classement: actions Facebook, nombre de les domaines de liaison racine et l'autorité de page. La première étape a consisté à collecter 10 000 SERP à partir de mots-clés sélectionnés au hasard dans notre corpus de mots-clés. Nous avons ensuite enregistré les partages Facebook, les domaines de liaison racine et l'autorité de page pour chaque URL. Nous avons noté chaque exemple où 2 URL adjacentes (telles que les positions 2 et 3 ou 7 et 8) ont été inversées par rapport à l'ordre prévu par le facteur de corrélation. Par exemple, si la position n ° 2 comptait 30 actions alors que la position n ° 3 en comptait 50, nous avons noté cette paire. Enfin, deux semaines plus tard, nous avons capturé les mêmes SERP et identifié le pourcentage de fois où Google réarrangeait la paire d'URL pour qu'elle corresponde à la corrélation attendue. Nous avons également sélectionné de manière aléatoire des paires d'URL pour obtenir un pourcentage de base de probabilité que deux URL adjacentes changent de position. Voici les résultats …

Le résultat

Il est important de noter qu'il est extrêmement rare de s'attendre à ce qu'un facteur déterminant se manifeste fortement dans une analyse comme celle-ci. Bien que la méthode expérimentale soit valable, elle n’est pas aussi simple qu’un facteur de prévision de l’avenir. Elle suppose que, dans certains cas, nous connaîtrons un facteur avant Google. L’hypothèse sous-jacente est que, dans certains cas, nous avons constaté un facteur de classement (tel qu’une augmentation du nombre de liens ou de partages sociaux) avant Googlebot et qu’au cours de la période de 2 semaines, Google rattrape et corrige les résultats mal ordonnés. Comme vous pouvez vous en douter, c'est une occasion rare. Cependant, avec un nombre suffisant d'observations, nous devrions être en mesure de voir une différence statistiquement significative entre les résultats en retard et ceux en avance. Cependant, la méthodologie ne détecte que lorsqu'un facteur est à la fois en tête et Moz Link Explorer a découvert le facteur pertinent avant Google .

Facteur Pourcentage corrigé Valeur de p 95% Min 95% maximum
Contrôle 18,93% 0
Partages Facebook contrôlés pour PA 18,31% 0.00001 -0,6849 -0,5551
Domaines de liaison racine 20,58% 0.00001 0.016268 0.016732
Autorité de page 20,98% 0.00001 0.026202 0.026398

Contrôle:

Afin de créer un contrôle, nous avons sélectionné de manière aléatoire des paires d'URL adjacentes dans la première collection de SERP et déterminé la probabilité que la seconde dépasse la première dans la collection de SERP finale. Dans environ 18,93% des cas, l'URL de classement pire devancerait l'URL de classement supérieur. En définissant ce contrôle, nous pouvons déterminer si l’un des corrélats potentiels est un facteur déterminant, c’est-à-dire qu’il peut contribuer à l’amélioration du classement.

Partages Facebook:

Les partages Facebook ont ​​généré la pire des trois variables testées. Les actions Facebook ont ​​en réalité moins bien performé que le hasard (18,31% contre 18,93%), ce qui signifie que les paires sélectionnées de manière aléatoire auraient plus de chances de passer que celles où les actions de la seconde étaient plus élevées que la première. Cela n’a rien d’étonnant, car le consensus général dans l’industrie veut que les signaux sociaux soient des facteurs en retard, c’est-à-dire que le trafic généré par les classements plus élevés entraîne des parts sociales plus élevées, et non pas par les parts sociales. Par la suite, nous nous attendrions à voir le classement changer avant d’augmenter les parts sociales.

RLD

Le nombre de domaines de liaison avec la racine brute s'est révélé nettement supérieur à celui des actions à environ 20,5%. Comme je l'ai déjà indiqué, ce type d'analyse est extrêmement subtil, car il ne détecte qu'un facteur à la fois en tête et que Moz Link Explorer a découvert le facteur pertinent avant Google . Néanmoins, ce résultat était statistiquement significatif avec une valeur de p <0,0001 et un intervalle de confiance de 95% que les RLD prédiront les changements de classement futurs supérieurs d'environ 1,5% à la valeur aléatoire.

Autorité de page

De loin, le facteur le plus performant était Page Authority. À 21,5%, l'AP a correctement prédit que les changements dans les SERP seraient supérieurs de 2,6% à ceux aléatoires. Ceci est une indication forte d'un facteur majeur, surperformant considérablement les parts sociales et surperformant la meilleure métrique brute prédictive, les domaines de liaison racine. Ce n'est pas surprenant. Page Authority est conçu pour prédire les classements. Nous devrions donc nous attendre à surperformer les indicateurs bruts pour identifier les éventuels changements de classement. Cela ne veut pas dire que Google utilise l'autorité de page Moz pour classer les sites, mais plutôt que cette autorité est une assez bonne approximation de la métrique utilisée par Google pour déterminer les sites de classement.

Pensées finales

Il existe une si grande variété de modèles expérimentaux que nous pouvons utiliser pour améliorer nos travaux de recherche dans l'ensemble de l'industrie. Ce n'est qu'une des méthodes qui peut nous aider à mettre en évidence les différences entre les facteurs de classement des causes et les corrélats en retard. La conception expérimentale n'a pas besoin d'être élaborée et les statistiques permettant de déterminer la fiabilité ne doivent pas nécessairement être à la pointe de la technologie. Bien que l'apprentissage automatique soit très prometteur pour l'amélioration de nos modèles prédictifs, de simples statistiques peuvent faire l'affaire lorsque nous établissons les bases.

Maintenant, sortez et faites de belles recherches!




Source link