Fermer

janvier 24, 2019

Découvrir des opportunités de référencement via des fichiers journaux


J'utilise quotidiennement les robots d'indexation. Bien qu’ils soient très utiles, ils ne font qu’imiter le comportement des robots des moteurs de recherche, ce qui signifie que vous n’obtenez pas toujours une image complète.

Les fichiers journaux sont le seul outil qui puisse vous donner un aperçu réel de la façon dont les moteurs de recherche explorent votre site. Malgré cela, beaucoup de gens sont toujours obsédés par le budget d'analyse – le nombre d'URL que Googlebot peut et veut explorer.

L'analyse des fichiers journaux peut permettre de découvrir des URL sur votre site dont vous n'aviez aucune idée, mais que les moteurs de recherche explorent malgré tout – un gaspillage majeur des ressources du serveur Google ( Google Webmaster Blog ):

"Le gaspillage de ressources de serveur sur des pages comme celles-ci drainera l'activité d'analyse des pages qui ont réellement une valeur, ce qui peut retarder considérablement la découverte de contenu de qualité sur un site."

Bien qu'il s'agisse d'un sujet fascinant, le fait est que la plupart des sites n'ont pas à s'inquiéter du budget de l'exploration – une observation partagée par John Mueller (analyste des tendances pour les webmasters chez Google) à quelques reprises déjà .

Toutefois, l’analyse des journaux produits à partir de ces analyses présente encore une grande valeur. Il montrera quelles pages Google explore et si quelque chose doit être corrigé.

Si vous savez exactement ce que vos fichiers journaux vous indiquent, vous obtiendrez de précieuses informations sur la façon dont Google analyse et affiche votre site, ce qui signifie que vous pouvez optimiser ces données pour augmenter le trafic. Et plus le site sera grand, plus grand sera l'impact de la résolution de ces problèmes .

Que sont les journaux de serveur?

Un fichier journal est un enregistrement de tout ce qui entre et qui sort d'un serveur. Considérez-le comme un registre de demandes formulées par des robots et de vrais utilisateurs. Vous pouvez voir exactement quelles ressources Google explore sur votre site.

Vous pouvez également voir quelles erreurs nécessitent votre attention. Par exemple, l'un des problèmes que nous avons découverts dans notre analyse est que notre CMS a créé deux URL pour chaque page et que Google a découvert les deux. Cela a entraîné des problèmes de contenu en double, car deux URL ayant le même contenu se faisaient concurrence.

L'analyse des journaux n'est pas sorcière, la logique est la même que lorsque vous travaillez avec des tableaux dans Excel ou Google Sheets. Le plus difficile est d’y avoir accès – exporter et filtrer ces données.

Regarder un fichier journal pour la première fois peut également sembler déconcertant, car lorsque vous en ouvrez un, vous voyez à peu près ceci:

Calmez-vous et examinez une ligne de plus près:

 66.249.65.107 - - [08/Dec/2017:04:54:20 -0400] "GET / contact / HTTP / 1.1" 200 11179 "-" "Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) "

Vous reconnaîtrez rapidement que:

  • 66.249.65.107 est l'adresse IP de (who)
  • [08/Dec/2017:04:54:20 -0400] est la de Timestamp (quand)
  • de type GET est la méthode .
  • / contact / est l'URL demandée (what)
  • 200 est le code de statut (résultat)
  • 11179 [11901]. est le octets transférés (taille)
  • “-” est l'URL du référenceur (source) – il est vide car cette requête a été effectuée par un robot d'exploration
  • . ] Mozilla / 5.0 (compatible; Googlebot / 2.1; + http: //www.google.com/bot.html) est l’agent de utilisateur (signature) – il s’agit de l’agent utilisateur de Googlebot ( Bureau)

Une fois que vous savez en quoi chaque ligne est composée, ce n’est pas si effrayant. C’est juste beaucoup d’informations. Mais c’est là que la prochaine étape est utile.

Outils utilisables

Vous pouvez choisir parmi de nombreux outils qui vous aideront à analyser vos fichiers journaux. Je ne vous ferai pas un aperçu complet des outils disponibles, mais il est important de connaître la différence entre les outils statiques et les outils en temps réel.

  • Static – Ceci n'analyse qu'un fichier statique. Vous ne pouvez pas prolonger le délai. Voulez-vous analyser une autre période? Vous devez demander un nouveau fichier journal. Mon outil préféré pour l'analyse des fichiers journaux statiques est Power BI.
  • En temps réel – Vous permet d'accéder directement aux journaux. J'aime beaucoup l'open source ELK Stack (Elasticsearch, Logstash et Kibana). Son implémentation nécessite un effort modéré, mais une fois la pile prête, elle me permet de modifier le délai en fonction de mes besoins sans avoir à contacter nos développeurs.

Commencer l'analyse

Ne vous contentez pas de plonger dans les journaux avec espérons trouver quelque chose – commencez à poser des questions. Si vous ne formulez pas vos questions au début, vous vous retrouverez dans un terrier de lapin sans orientation ni véritable perspicacité.

Voici quelques exemples de questions que j'utilise au début de mon analyse:

  • Quels moteurs de recherche explorent mon site Web?
  • Quelles sont les adresses URL analysées le plus souvent?
  • Quels types de contenu sont analysés le plus souvent?
  • Quels codes d'état sont renvoyés?

Si vous voyez que Google analyse, pages non existantes (404), vous pouvez commencer à demander laquelle des URL demandées renvoie le code d'état 404.

Classez la liste en fonction du nombre de demandes, évaluez celles qui ont le nombre le plus élevé pour rechercher les pages avec la priorité la plus élevée (plus de demandes, la priorité la plus élevée) et déterminez si vous souhaitez rediriger cette URL ou effectuer une autre action.

Si vous utilisez un CDN ou un serveur de cache, vous devez également obtenir ces données pour obtenir une image complète.

Segmentez vos données

Le regroupement des données en segments fournit des données agrégées. chiffres qui vous donnent une grande image. Cela facilite la détection des tendances que vous avez peut-être manquées en ne regardant que les URL individuelles. Vous pouvez localiser les sections problématiques et faire un zoom avant si nécessaire.

Il existe différentes manières de regrouper des URL:

  • Groupe par type de contenu (pages d'un seul produit par rapport à des catégories)
  • Groupe par langue (pages en anglais par rapport à pages françaises)
  • Groupe par devanture (magasin canadien par rapport à un magasin américain)
  • Groupe par fichier format (JS vs. images vs. CSS)

N'oubliez pas de trancher vos données par agent utilisateur. Si vous consultez Google Desktop, Google Smartphone et Bing, vous ne trouverez aucune information utile.

Le comportement du moniteur change avec le temps

Votre site change avec le temps, ce qui signifie le comportement des robots d'exploration. Googlebot diminue ou augmente souvent le taux d'analyse en fonction de facteurs tels que la vitesse d'une page, la structure des liens internes et l'existence de pièges d'analyse.

C’est une bonne idée de vérifier vos fichiers de log tout au long de l’année ou lors de l’exécution de modifications du site Web. Je consulte les journaux presque toutes les semaines lorsque je publie des modifications importantes pour les grands sites Web.

En analysant au moins deux fois par an les journaux du serveur, vous constaterez des changements dans le comportement du robot.

Surveillez les usurpations d'identité

Les spambots et les scrapers n'aiment pas être bloqués. Ils peuvent donc simuler leur identité. Ils exploitent l'agent utilisateur de Googlebot pour éviter les filtres anti-spam.

Pour vérifier si un robot d'exploration du Web accédant à votre serveur est vraiment Googlebot, vous pouvez exécuter une recherche DNS inversée, puis une recherche DNS directe. Pour plus d'informations sur ce sujet, consultez le site Centre d'aide Google pour les webmasters .

Fusionner les journaux avec d’autres sources de données

Bien qu’il ne soit pas nécessaire de se connecter à d’autres sources de données, vous obtiendrez un autre niveau de connaissance et de contexte qu’une analyse régulière des journaux ne pourra peut-être pas vous fournir. La possibilité de connecter facilement plusieurs jeux de données et d'en extraire des informations est la principale raison pour laquelle Power BI est mon outil de prédilection, mais vous pouvez utiliser n'importe quel outil que vous connaissez (par exemple Tableau ).

Fusionnez les journaux du serveur avec plusieurs autres sources telles que les données Google Analytics, le classement des mots clés, les sitemaps, les données d'analyse et commencez à poser des questions du type:

  • Quelles pages ne sont pas incluses dans le sitemap
  • Quelles pages sont incluses dans le fichier Sitemap.xml mais ne sont pas explorées?
  • Les pages générant des revenus sont-elles souvent explorées?
  • La majorité des pages analysées sont-elles indexables?

Vous pourriez être surpris par les informations que vous découvrirez et qui peuvent aider à renforcer votre stratégie de référencement. Par exemple, vous pouvez agir en découvrant que près de 70% des demandes Googlebot concernent des pages non indexables.

Vous pouvez voir d'autres exemples de fusion de fichiers journaux avec d'autres sources de données dans mon article sur l'analyse avancée des journaux .

Utilisez les journaux pour déboguer Google Analytics

. ] Ne considérez pas les journaux de serveur comme un simple outil de référencement. Les journaux constituent également une source d'informations inestimable qui peut aider à identifier les erreurs techniques avant qu'elles ne s'aggravent.

L'année dernière, Google Analytics a signalé une baisse du trafic organique pour nos requêtes de recherche de marque. Mais notre outil de suivi des mots clés, STAT Search Analytics ainsi que d’autres outils, ne présentaient aucun mouvement qui aurait mérité cette baisse. Alors, que se passait-il?

Les journaux de serveur nous ont aidés à comprendre la situation: il n’ya pas eu de réelle baisse du trafic. C'est notre WAF (Web Application Firewall) récemment déployé qui annulait le référent, ce qui a entraîné la classification incorrecte du trafic organique en tant que trafic direct dans Google Analytics.

L'utilisation de fichiers journaux conjointement avec le suivi des mots clés dans STAT nous a permis de découvrir toute l'histoire et de diagnostiquer rapidement le problème.

Tout rassembler

L'analyse des journaux est une nécessité, surtout lorsque vous commencez à travailler avec de grands sites Web.

Mon conseil est de commencer par segmenter les données et de surveiller les changements au fil du temps. Une fois que vous vous sentez prêt, explorez les possibilités de fusion des journaux avec vos données d'analyse ou Google Analytics. C’est là que se cachent de grandes idées.


Vous voulez plus?

Prêt à apprendre à craquer et à en suivre davantage? Contactez une démo pour obtenir votre solution personnalisée sur mesure de STAT.






Source link