Fermer

octobre 26, 2018

Analyse de fichier journal 101 – Tableau blanc vendredi


L'analyse du fichier journal peut fournir certaines des informations les plus détaillées sur ce que Googlebot fait sur votre site, mais il peut s'agir d'un sujet intimidant. Dans le Whiteboard Friday de cette semaine, Britney Muller décompose l’analyse des fichiers journaux pour la rendre un peu plus accessible aux référenceurs du monde entier.

Cliquez sur l'image du tableau blanc ci-dessus pour ouvrir une version en haute résolution dans un nouvel onglet!

Transcription vidéo

Salut, fans de Moz. Bienvenue dans une autre édition de Whiteboard Friday. Aujourd'hui, nous passons en revue toutes les analyses de fichiers journaux, ce qui est extrêmement important car il vous indique réellement les tenants et les aboutissants de ce que Googlebot fait sur vos sites.

Je vais donc passer en revue les trois zones principales, la première étant les types de journaux que vous pouvez voir sur un site particulier, à quoi cela ressemble, ce que cette information signifie. La seconde consiste à analyser ces données et à obtenir des informations, et la troisième à utiliser ces informations pour optimiser vos pages et votre site.

Pour en savoir plus sur l'analyse du fichier journal et son application au SEO, consultez notre article: Comment utiliser l'analyse du journal de serveur pour le référencement technique

1. Types

Allons donc droit au but. Il existe trois principaux types de journaux, le principal étant Apache. Mais vous verrez aussi le W3C, l'équilibrage de charge élastique, que vous verrez peut-être beaucoup avec des choses comme Kibana. Mais vous rencontrerez également probablement des fichiers de log personnalisés. Donc, pour les plus gros sites, ce n’est pas rare. Je sais que Moz a un système de fichiers de log personnalisé. Rapidement est une configuration de type personnalisé. Sachez simplement que ceux-ci sont là-bas.

Données du journal

Qu'allez-vous voir dans ces journaux? Les données qui entrent sont principalement dans ces couleurs.

Donc, espérons que vous verrez:

  • l'adresse IP du serveur de requêtes;
  • l'horodatage, c'est-à-dire la date et l'heure auxquelles cette demande a été faite;
  • l'URL demandée, alors quelle page visitent-ils;
  • le code de statut HTTP, était-ce un 200, at-il été résolu, était-ce une redirection 301;
  • l'agent utilisateur, et donc pour nous les SEO, nous regardons simplement le Googlebot de ces agents utilisateurs.

Les fichiers de log contiennent traditionnellement toutes les données, toutes les visites de personnes et de trafic, mais nous souhaitons analyser le trafic de Googlebot. Méthode (Get / Post), puis le temps pris, l'adresse IP du client et le référent sont parfois inclus. Donc, à quoi cela ressemble, c'est un peu comme glibbery gloop.

C'est un mot que je viens d'inventer et qui ressemble à ça. C'est juste comme bleh. Qu'est-ce que c'est? Ça a l'air fou. C'est une nouvelle langue. Mais essentiellement, vous verrez probablement cette adresse IP, donc cette adresse IP rouge, cet horodatage, qui ressemblera généralement à cela, cette méthode (get / post), que je ne comprends pas complètement ou que je ne dois pas nécessairement utiliser dans certains des cas. analyse, mais il est bon de connaître toutes ces choses, l’URL demandée, ce code de statut, toutes ces choses ici.

2. Analyse

Alors, qu'allez-vous faire avec ces données? Comment l'utilisons-nous? Il existe donc un certain nombre d’outils qui sont vraiment formidables pour faire le gros du travail pour vous. Screaming Frog Log File Analyzer est excellent. Je l'ai beaucoup utilisé. J'aime vraiment, vraiment. Mais vous devez avoir vos fichiers journaux dans un type de format spécifique pour qu'ils puissent les utiliser.

Le splunk est également une excellente ressource. Sumo Logic et moi savons qu'il y en a beaucoup d'autres. Si vous travaillez avec de très gros sites, comme je l'ai fait dans le passé, vous allez rencontrer des problèmes ici, car ils ne figureront pas dans un fichier journal commun. Donc, ce que vous pouvez faire est de faire manuellement certaines de ces tâches, ce qui, je le sais, semble un peu fou.

Analyse manuelle Excel

Mais tenez bon. Croyez-moi, c'est amusant et super intéressant. Ce que j'ai fait par le passé, c’est d’importer un fichier journal CSV dans Excel, d’utiliser l’Assistant d’importation de texte et de définir les séparateurs de cette folie. Ainsi, qu’il s’agisse d’un espace, d’une virgule ou d’une citation, vous pouvez en quelque sorte les séparer de manière à ce que chacun d’eux vive dans ses propres colonnes. Je ne m'inquiéterais pas d'avoir des colonnes vierges supplémentaires, mais vous pouvez les séparer. À partir de là, vous feriez simplement de créer des tableaux croisés dynamiques. Je peux donc vous relier à une ressource sur comment vous pouvez facilement le faire .

Principales pages

Mais, dans Excel, vous pouvez essentiellement rechercher: quelles sont les pages les plus consultées par Googlebot par fréquence? Quelles sont ces premières pages par le nombre de fois qu'il est demandé?

Dossiers principaux

Vous pouvez également consulter les demandes de dossier supérieur, ce qui est très intéressant et très important. En plus de cela, vous pouvez également examiner: Quels sont les types de Googlebot les plus courants sur votre site? Est-ce Googlebot mobile? Est-ce des images Googlebot? Est-ce qu'ils frappent les bonnes ressources? Super important. Vous pouvez également créer un tableau croisé dynamique avec les codes d’état. J'aime appliquer certaines de ces choses violettes aux rapports de pages supérieures et de dossiers supérieurs. Alors maintenant, vous obtenez un aperçu de: OK, comment certaines de ces premières pages ont-elles été résolues? À quoi ressemblent les principaux dossiers?

Vous pouvez également le faire pour les adresses IP Googlebot. C'est le meilleur bidouillage que j'ai trouvé avec l'analyse du fichier journal. Je vais créer un tableau croisé dynamique avec les adresses IP Googlebot, ici même. Donc, je vais généralement en recevoir, parfois quelques-unes d'entre elles, mais je vais en avoir toutes les uniques, et je peux accéder au terminal sur votre ordinateur, sur la plupart des ordinateurs standard.

J'ai essayé de le dessiner. Ça ressemble à ça. Mais tout ce que vous faites est de taper "hôte" puis de mettre cette adresse IP. Vous pouvez le faire sur votre terminal avec cette adresse IP et vous le verrez résoudre en tant que Google.com. Cela vérifie qu'il s'agit bien d'un Googlebot et non d'un autre robot spoofing de Google. C’est donc quelque chose que ces outils ont tendance à prendre en charge automatiquement, mais il existe aussi des façons de le faire manuellement, ce qu’il est bon de connaître.

3. Optimiser les pages et le budget d'analyse

Bien, comment optimiser-vous ces données et commencez-vous réellement à améliorer votre budget d'analyse? Lorsque je parle de "budget d'analyse", cela signifie principalement le nombre de fois que Googlebot se rend sur votre site et le nombre de pages qu'il analyse habituellement. Alors c'est quoi ça? À quoi ressemble ce budget d'analyse et comment pouvez-vous le rendre plus efficace?

  • Connaissance des erreurs du serveur: La connaissance des erreurs des serveurs est donc très importante. Il est bon de surveiller une augmentation de 500 erreurs sur certaines de vos pages.
  • 404s: valide? Referrer ?: Une autre chose à regarder est l'ensemble des 400 que Googlebot trouve. C'est si important de voir: d'accord, est-ce que 400 demandes, est-ce que 400 est valide? Cette page n'existe-t-elle pas? Ou est-ce une page qui devrait exister et qui n’existe plus, mais vous pourriez peut-être réparer? S'il y a une erreur ou si elle ne devrait pas être là, quel est le référant? Comment Googlebot le trouve-t-il et comment pouvez-vous commencer à nettoyer certaines de ces choses?
  • Isolez les 301 et corrigez-les fréquemment sur 301 chaînes: 301, ce qui pose beaucoup de questions sur les 301 dans ces fichiers journaux. Le meilleur truc que j'ai en quelque sorte découvert, et que d'autres personnes ont découvert, consiste à isoler et à réparer les 301 chaînes les plus fréquemment touchées. Donc, vous pouvez le faire dans un tableau croisé dynamique. En fait, il est beaucoup plus facile de le faire lorsque vous avez associé les données à l'analyse, car vous avez maintenant un aperçu plus détaillé de cette chaîne. Ce que vous pouvez faire, c'est regarder les 301 les plus fréquemment touchées et voir: Existe-t-il des solutions simples et rapides pour cette chaîne? Y a-t-il quelque chose que vous pouvez supprimer et que vous puissiez résoudre rapidement comme si vous ne faisiez qu'un saut ou deux?
  • Premier mobile: Vous pouvez surveiller les mobiles d'abord. Si votre site est d'abord devenu mobile, vous pouvez creuser dans celui-ci, dans les journaux et évaluer son apparence. Fait intéressant, le Googlebot va toujours ressembler à ce Googlebot 2.0 compatible. Cependant, toutes les implications relatives à la téléphonie mobile figureront entre parenthèses. Donc, je suis sûr que ces outils peuvent automatiquement le savoir. Mais si vous faites certaines choses manuellement, il est bon de savoir à quoi cela ressemble.
  • Contenu manquant: Alors, ce qui est vraiment important, c'est d'examiner: qu'est-ce que Googlebot trouve et rampe, et qu'est-ce qui leur manque complètement? Le moyen le plus simple de procéder consiste donc à comparer les résultats avec la carte de votre site. C'est un très bon moyen de jeter un coup d'œil sur ce qui pourrait être oublié et pourquoi et comment peut-être redéfinir les priorités de ces données dans le plan du site ou les intégrer dans la navigation, dans la mesure du possible.
  • Comparez la fréquence des hits à la circulation: C'était un conseil génial que j'ai eu sur Twitter, et je ne me souviens plus qui l'a dit. Ils ont dit comparer la fréquence des visites de Googlebot au trafic. Je pensais que c'était génial, car l'une d'elles, non seulement vous voyez une corrélation potentielle, mais vous pouvez également voir où vous pourriez augmenter le trafic d'analyse ou les analyses sur une page spécifique à trafic élevé. Vraiment intéressant de regarder ça.
  • Paramètres d'URL: Vérifiez si Googlebot affiche une URL comportant les chaînes de paramètres. Tu ne veux pas ça. Il s’agit généralement de dupliquer du contenu ou d’autres éléments pouvant être attribués dans la console de recherche Google avec la section de paramètres. Donc, tout commerce électronique existant doit absolument vérifier et clarifier tout cela.
  • Évaluez les jours, les semaines, les mois: Vous pouvez évaluer les jours, les semaines et les mois qui ont été touchés. Alors, y a-t-il une pointe chaque mercredi? Y a-t-il une pointe chaque mois? C'est un peu intéressant à savoir, pas totalement critique.
  • Évaluez la vitesse et les ressources externes: Vous pouvez évaluer la vitesse des demandes et déterminer s'il existe des ressources externes potentiellement nettoyables et accélérer un peu le processus d'exploration.
  • Optimisez la navigation et les liens internes: Vous souhaitez également optimiser cette navigation, comme je l'ai dit précédemment, et utiliser cette méta sans index.
  • Meta noindex et robots.txt interdisent: Donc, s'il y a des choses que vous ne voulez pas dans l'index et s'il y a des choses que vous ne voulez pas être extraites de votre fichier robots.txt , vous pouvez ajouter toutes ces choses et commencer à aider certaines de ces choses aussi.

Reevaluate

Enfin, il est vraiment utile de connecter les données d'analyse à certaines de ces données. Ainsi, si vous utilisez quelque chose comme Screaming Frog ou DeepCrawl, ils permettent ces intégrations avec différents fichiers journaux de serveur, ce qui vous donne plus d'informations. A partir de là, vous voulez juste réévaluer. Donc, vous voulez continuer ce cycle encore et encore.

Vous voulez regarder ce qui se passe, faire en sorte que certains de vos efforts soient efficaces, est-ce que tout est en train d'être nettoyé, et c'est à partir de là. Donc j'espère que cela aide. Je sais que c'était beaucoup, mais je veux que ce soit un peu un aperçu général de l'analyse des fichiers journaux. J'ai hâte de répondre à toutes vos questions et commentaires ci-dessous. Je vous reverrai bientôt sur un autre tableau blanc vendredi. Merci.

Transcription vidéo de Speechpad.com




Source link