juillet 22, 2019

Espionnage sur Google: 5 façons d'utiliser l'analyse de fichier journal pour révéler des informations inestimables sur le référencement

L’analyse des fichiers journaux devrait faire partie de la ceinture d’outils des professionnels de la SEO, mais la plupart des SEO n’en ont jamais fait. Ce qui signifie que la plupart des référenceurs n’ont pas accès aux informations uniques et précieuses que les outils d’exploration classiques ne peuvent tout simplement pas produire.

Démystifions l'analyse des fichiers journaux afin qu'elle ne soit pas si intimidante. Si le monde merveilleux des fichiers journaux vous intéresse et ce qu’ils peuvent apporter à vos audits de site, ce guide est tout à fait pour vous.

Que sont les fichiers journaux?

Les fichiers journaux sont des fichiers contenant des journaux détaillés indiquant qui et quoi envoie des demandes au serveur de votre site Web. Chaque fois qu'un bot adresse une requête à votre site, des données (telles que l'heure, l'adresse IP de la date, l'agent utilisateur, etc.) sont stockées dans ce journal. Ces données précieuses permettent à tout référencement de savoir ce que Googlebot et les autres robots d'exploration font sur votre site. Contrairement aux analyses classiques, comme avec Screaming Frog SEO Spider, il s'agit de données réelles, et non d'une estimation de la manière dont votre site est analysé. C'est un aperçu exact de la façon dont votre site est exploré .

Ces données précises peuvent vous aider à identifier les zones de gaspillage lié au budget d'exploration, à trouver facilement les erreurs d'accès, à comprendre l'impact de vos efforts de référencement sur le référencement. beaucoup plus. La meilleure partie est que, dans la plupart des cas, vous pouvez le faire avec un simple tableur.

Dans ce guide, nous allons nous concentrer sur Excel pour effectuer l'analyse de fichier journal, mais nous aborderons également d'autres outils tels que l'analyseur de fichier journal moins connu de Screaming Frog, qui peut simplement rendre le travail plus facile et plus rapide en: vous aider à gérer de plus grands ensembles de données.

Remarque: la possession de logiciels autres qu'Excel n'est pas une obligation de suivre ce guide ni de vous salir les mains avec les fichiers journaux.

Comment ouvrir les fichiers journaux

Renommer .log en .csv

Lorsque vous obtenez un fichier journal avec une extension .log, il vous suffit de renommer l'extension de fichier .csv et d'ouvrir le fichier dans un tableur. Logiciel. N'oubliez pas de configurer votre système d'exploitation pour qu'il affiche les extensions de fichier si vous souhaitez les modifier.

Comment ouvrir des fichiers journaux divisés

Les fichiers journaux peuvent figurer dans un seul grand journal ou dans plusieurs fichiers, en fonction de la configuration du serveur de votre site. . Certains serveurs utilisent l'équilibrage de la charge des serveurs pour répartir le trafic sur un pool ou une batterie de serveurs, ce qui entraîne la division des fichiers journaux. La bonne nouvelle est que la combinaison est très facile. Vous pouvez utiliser l'une de ces trois méthodes pour les combiner, puis les ouvrir normalement:

Utilisez la ligne de commande sous Windows en appuyant sur Maj + clic du bouton droit de la souris dans le dossier contenant votre fichiers journaux et sélection de «Exécuter Powershell à partir d’ici»

Ensuite, exécutez la commande suivante:

copy * .log mylogfiles.csv

Vous pouvez maintenant ouvrir le fichier mylogfile.csv qui contiendra toutes vos données de journal. ] Ou si vous êtes un utilisateur Mac, utilisez d’abord la commande cd pour accéder au répertoire de vos fichiers journaux:

cd Documents / MyLogFiles /

Ensuite, utilisez la commande cat ou concatenate pour joindre vos fichiers:

cat * .log> mylogfiles.csv

2) À l'aide de l'outil gratuit Fusion de fichiers journaux combinez tous les fichiers journaux, puis modifiez l'extension du fichier au format .csv et ouvrez-le en tant que normal.

3) Ouvrez les fichiers de log avec l’analyseur de fichier de journal Screaming Frog, qui est aussi simple que de glisser-déposer les fichiers de journal: [19659023] Division de chaînes

(Remarque: cette étape n'est pas nécessaire si vous utilisez l'analyseur de fichier journal de Screaming Frog.)

Une fois que vous avez ouvert votre fichier journal, vous devez fractionner le texte compliqué. chaque cellule en colonnes pour faciliter le tri ultérieur.

La fonction Texte en colonne d’Excel est très pratique ici. Elle est aussi simple que de sélectionner toutes les cellules remplies (Ctrl / Cmd + A), d’accéder à Excel> Données> Texte en colonnes et de sélectionner l'option "Délimité". le délimiteur étant un caractère d'espace.

Une fois que vous avez séparé cette information, vous pouvez également vouloir trier par date et heure – vous pouvez le faire dans la colonne timbre Heure et date, en séparant généralement les données avec le délimiteur de côlon “:”.

Votre Le fichier doit ressembler à celui ci-dessous:

Comme mentionné précédemment, ne vous inquiétez pas si votre fichier journal ne se présente pas exactement de la même façon: des fichiers journaux différents ont des formats différents. Tant que vous disposez des données de base (heure et date, URL, agent utilisateur, etc.), vous êtes prêt à partir!

Comprendre les fichiers journaux

Maintenant que vos fichiers journaux sont prêts pour l'analyse, nous peut plonger et commencer à comprendre nos données. Les fichiers journaux peuvent prendre de nombreux formats avec plusieurs points de données différents, mais ils incluent généralement les éléments suivants:

IP du serveur
Date et heure
Méthode de requête du serveur (par exemple, GET / POST)
URL demandée
Code de statut HTTP
User-agent

Plus de détails sur les formats courants peuvent être trouvés ci-dessous si vous êtes intéressé par les détails détaillés:

WC3
Apache et NGINX
Amazon Elastic Load Balancing
HA Proxy
JSON

Comment détecter rapidement les pertes de budget d'exploration

En résumé, Crawl Budget est le nombre de pages qu'un moteur de recherche explore à chaque visite de votre site. De nombreux facteurs affectent le budget d'analyse, notamment l'équité du lien ou l'autorité du domaine, la vitesse du site, etc. Avec l’analyse du fichier journal, nous pourrons voir quel type de budget d’exploration a votre site Web et où il existe des problèmes qui entraînent un gaspillage du budget d’exploration.

Idéalement, nous souhaitons offrir aux crawlers l’expérience de crawling la plus efficace possible. L'analyse ne doit pas être gaspillée dans les URL et les pages de faible valeur, et les pages prioritaires (pages de produit, par exemple) ne doivent pas présenter de taux d'indexation et d'analyse plus lents, car un site Web contient un nombre de pages inutilisables. Le nom du jeu est «conservation du budget d'exploration» et, avec une bonne conversion de budget d'analyse, de meilleures performances de recherche organiques.

Voir les URL analysées par l'agent d'utilisateur

Il est très utile de savoir à quelle fréquence les URL du site sont analysées. rampent.

Si vous souhaitez connaître le comportement d'un agent à utilisateur unique, vous pouvez facilement filtrer la colonne correspondante dans Excel. Dans ce cas, avec un fichier journal au format WC3, je filtre la colonne cs (User-Agent) de Googlebot:

puis je filtre la colonne URI pour afficher le nombre de fois où Googlebot a analysé la page d'accueil de cet exemple de site. :

C'est un moyen rapide de voir s'il existe des zones problématiques par racine d'URI pour un agent utilisateur singulier. Vous pouvez aller plus loin en examinant les options de filtrage de la colonne racine d'URI, qui est dans ce cas cs-uri-stem:

Ce menu de base permet de voir quelles URL, y compris les fichiers de ressources, sont en cours de traitement. analysé pour identifier rapidement les URL problématiques (URL paramétrées qui ne devraient pas être analysées, par exemple).

Vous pouvez également effectuer des analyses plus larges avec des tableaux croisés dynamiques. Pour obtenir le nombre de fois qu'un agent utilisateur a analysé une URL spécifique, sélectionnez l'ensemble du tableau (Ctrl / cmd + A), accédez à Insertion> Tableau croisé dynamique, puis utilisez les options suivantes:

filtrer par agent d'utilisateur, avec l'URL sous la forme de lignes, puis compter le nombre de fois que chaque agent utilisateur se produit.

Avec mon exemple de fichier journal, j'ai obtenu ce qui suit:

Ensuite, pour filtrer par utilisateur spécifique Agent, j'ai cliqué sur l'icône de la liste déroulante de la cellule contenant «(Tous)» et sélectionné Googlebot:

. Comprendre ce que différents robots exploitent, comment les robots mobiles s'exécutent différemment du bureau et où la plupart des analyses se produisent vous aide à voir immédiatement où il y a une perte de budget d'exploration et quelles zones du site doivent être améliorées.

Trouver des URL à faible valeur ajoutée

Le budget d'analyse ne doit pas être gaspillé sur des URL à faible valeur ajoutée, qui sont normalement générées par la session. Identifiants, espaces d'exploration infinis et navigation par facettes.

Pour ce faire, retournez à ur fichier journal et filtrer par URL contenant un "?" ou un symbole de point d’interrogation de la colonne URL (contenant la racine de l’URL). Pour ce faire dans Excel, n'oubliez pas d'utiliser «~?» Ou un point d'interrogation tilde, comme indiqué ci-dessous:

Un simple «?» Ou un point d'interrogation, comme indiqué dans la fenêtre de filtrage automatique, représente n'importe quel caractère. tilde est comme un caractère d'échappement et veille à filtrer le point d'interrogation lui-même

Trouver des URL en double

Les URL en double peuvent être un gaspillage de budget et un gros problème de référencement, mais les trouver peut être une douleur. Les URL peuvent parfois avoir de légères variantes (telles qu'une barre oblique finale ou une version non barrée d'une URL).

En fin de compte, le meilleur moyen de rechercher des URL en double est également le moyen le moins amusant de le faire – vous devez trier L'URL du site est alphabétique et manuel manuellement.

Pour trouver les versions avec barre oblique de fin et non-barre de la même adresse URL, vous pouvez utiliser la fonction SUBSTITUTE dans une autre colonne et l'utiliser pour supprimer toutes les barres obliques:

= SUBSTITUTE (C2, “/”, “”)

Dans mon cas, la cellule cible est C2, car les données de tige figurent dans la troisième colonne.

Ensuite, utilisez la mise en forme conditionnelle pour identifier les valeurs en double et les surligner.

Cependant, la vue est malheureusement la meilleure méthode pour le moment.

Voir la fréquence d'analyse des sous-répertoires

Déterminer quels sont les sous-répertoires les plus analysés est un autre moyen rapide de révéler le gaspillage lié à l'analyse du budget. Gardez à l'esprit que le fait que le blog d'un client n'ait jamais gagné un seul lien retour et ne reçoive que trois visites par an de la grand-mère du propriétaire de l'entreprise ne signifie pas que vous devriez le considérer comme une perte de budget – la structure de liens interne doit toujours être bonne sur tout le site. et le contenu peut avoir une raison forte du point de vue du client.

Pour connaître la fréquence d’exploration par niveau de sous-répertoire, vous devez l’observer principalement, mais la formule suivante peut vous aider:

 = IF (RIGHT (C2 , 1) = "/", SUM (LEN (C2) -LEN (SUBSTITUT (C2, "/", ")))) / LEN (" / ") + SUM (LEN (C2) -LEN (SUBSTITUT (C2 , "=", ""))) / LEN ("=") - 2, SUM (LEN (C2) -LEN (SUBSTITUT (C2, "/", ""))) / LEN ("/") + SUM (LEN (C2) -LEN (SUBSTITUT (C2, "=", "")))) / LEN ("=") - 1)

La formule ci-dessus ressemble à une sorte de doozy, mais tout ce qu'elle fait Vérifiez si une barre oblique se trouve à la fin et, en fonction de la réponse, comptez le nombre de barres obliques à la fin et soustrayez 2 ou 1 du nombre. Cette formule peut être raccourcie si vous supprimez toutes les barres obliques de votre liste d’URL à l’aide de la formule DROITE – mais qui a le temps. Ce qui vous reste, c’est le nombre de sous-répertoires (en partant de 0 comme premier sous-répertoire).

Remplacez C2 par la première cellule racine / URL d’URL, puis copiez la formule dans votre liste pour la faire fonctionner.

Assurez-vous de remplacer tous les C2 par la cellule de départ appropriée, puis triez la nouvelle colonne de comptage de sous-répertoires par ordre croissant afin d'obtenir une bonne liste de dossiers dans un ordre logique ou un filtrage simple par niveau de sous-répertoire. Par exemple, comme illustré dans les captures d'écran ci-dessous:

L'image ci-dessus correspond à des sous-répertoires classés par niveau.

L'image ci-dessus correspond à des sous-répertoires classés par profondeur.

Si vous ne traitez pas beaucoup d'URL, vous Vous pouvez simplement trier les URL par ordre alphabétique, mais vous n'obtiendrez pas le filtrage du nombre de sous-répertoires, qui peut être beaucoup plus rapide pour les sites volumineux.

Voir la fréquence d'analyse par type de contenu

Trouver le contenu analysé, ou Si certains types de contenu accaparent le budget d'analyse, c'est un excellent moyen de détecter les pertes de budget d'analyse. Cette analyse permet de détecter facilement les analyses fréquentes sur des fichiers CSS et JS inutiles ou de priorité faible, ou la fréquence d'analyse si vous essayez d'optimiser la recherche d'images.

Dans Excel, l'affichage de la fréquence d'analyse par type de contenu est essentiel. aussi simple que de filtrer par URL ou par URI à l’aide de l’option Filtrage par.

Astuce: vous pouvez également utiliser le filtre "Ne pas terminer avec" et utiliser une extension .html pour voir comment les fichiers de page non HTML sont analysés – il est toujours utile de vérifier en cas de gaspillage de budget sur des fichiers js ou css inutiles. des fichiers, ou même des images et des variantes d’images (en vous regardant WordPress). En outre, rappelez-vous que si vous avez un site avec des URL de barre oblique de fin et de fin, vous devez en tenir compte avec l'opérateur "ou" avec filtrage.

Espionnage des bots: comprendre le comportement d'analyse du site

Analyse du fichier journal nous permet de comprendre le comportement des bots en nous donnant une idée de leurs priorités. Comment différents robots se comportent-ils dans différentes situations? Forts de ces connaissances, vous pouvez non seulement approfondir votre compréhension du référencement et de l'exploration, mais également vous permettre de mieux comprendre l'efficacité de l'architecture de votre site.

Voir les URL les plus et les moins explorées

Cette stratégie a été modifiée auparavant, avec l'affichage des URL analysées par l'agent utilisateur, mais c'est encore plus rapide.

Dans Excel, sélectionnez une cellule dans votre tableau, puis cliquez sur Insertion> Tableau croisé dynamique, assurez-vous que la sélection contient les colonnes nécessaires (dans ce cas, l'URL ou URI et l’agent utilisateur), puis cliquez sur OK.

Une fois votre tableau croisé dynamique créé, définissez les lignes sur l’URL ou l’axe URI et la valeur ajoutée en tant qu’agent utilisateur.

À partir de là, vous pouvez cliquer avec le bouton droit de la souris sur la colonne user-agent et trier les URL du plus grand au plus petit en fonction du nombre d'analyses:

Vous disposez maintenant d'un excellent tableau pour créer des graphiques ou pour passer rapidement en revue et rechercher les problèmes éventuels: [19659093] Une question à vous poser lors de l’examen de ces données est la suivante: les pages que vous ou le le client voudrait-il être exploré? À quelle fréquence? L'exploration fréquente ne signifie pas nécessairement de meilleurs résultats, mais elle peut indiquer ce que Google et les autres agents utilisateurs de contenu accordent le plus de priorité.

Fréquence d'analyse par jour, par semaine ou par mois

Vérification de l'activité d'exploration pour identifier Les problèmes qui ont entraîné une perte de visibilité sur une période donnée, après qu'une mise à jour de Google ou une situation d'urgence puissent vous informer du problème. Ceci est aussi simple que de sélectionner la colonne «date», de s’assurer que la colonne est au type de format «date», puis d’utiliser les options de filtrage de la date de la colonne de date. Si vous souhaitez analyser une semaine entière, sélectionnez simplement les jours correspondants avec les options de filtrage disponibles.

Fréquence d’exploration par directive

Comprendre les directives suivies (par exemple, si vous utilisez une interdiction ou même une directive no-index dans le fichier robots.txt) de Google est essentielle à tout audit ou campagne de référencement. Si un site utilise des URL à navigation à facettes interdites, par exemple, vous devez vous assurer que celles-ci sont respectées. Si ce n’est pas le cas, recommandez une meilleure solution, telle que des directives sur la page, telles que des balises meta robots.

Pour afficher la fréquence d’exploration par directive, vous devez associer un rapport d’analyse à l’analyse de votre fichier journal.

(Avertissement: nous allons utiliser VLOOKUP, mais ce n’est vraiment pas aussi compliqué que le prétendent les gens.)

Pour obtenir les données combinées, procédez comme suit:

Obtenez l’analyse de votre site en utilisant votre logiciel d'exploration préféré. Je suis peut-être partial, mais je suis un grand fan de Screaming Frog SEO Spider, je vais donc l'utiliser.
Si vous utilisez également l'araignée, suivez les étapes à la lettre, mais sinon, faites votre propre appel pour obtenir les mêmes résultats.
Exportez le rapport HTML interne à partir de SEO Spider (onglet interne> “ Filtre: HTML ") et ouvrez le fichier" internal_all.xlsx ".

À partir de là, vous pouvez filtrer la colonne" Statut d'indexabilité "et supprimer toutes les cellules vides. Pour ce faire, utilisez le filtre «ne contient pas» et laissez-le vide. Vous pouvez également ajouter l'opérateur "et" et filtrer les URL redirigées en faisant en sorte que la valeur du filtre soit égale "ne contient pas →" redirigé ", comme indiqué ci-dessous:

Cela vous montrera canonical, no-index méta-robots et URL canonisées.
Copiez ce nouveau tableau (avec uniquement les colonnes Adresse et Statut d'indexabilité) et collez-le dans une autre feuille de votre export d'analyse d'analyse de fichier journal.
Passons maintenant à la magie de VLOOKUP. Tout d’abord, nous devons nous assurer que les données de colonne URI ou URL sont au même format que les données d’exploration.
Les fichiers journaux ne contiennent généralement pas le domaine racine ni le protocole dans l'URL. Nous devons donc supprimer la tête de l'URL à l'aide de "Rechercher et remplacer" dans notre nouvelle feuille ou créer une nouvelle colonne dans votre journal. La feuille d'analyse de fichier ajoute le protocole et le domaine racine à la racine de l'URI. Je préfère cette méthode car vous pouvez ensuite copier et coller rapidement une URL avec laquelle vous rencontrez des problèmes et y jeter un coup d'oeil. Toutefois, si vous avez un fichier journal volumineux, la méthode "Rechercher et remplacer" nécessite probablement moins de ressources en temps CPU.
Pour obtenir vos URL complètes, utilisez la formule suivante, mais avec le champ URL modifié pour le site de votre choix. analysons (et assurez-vous que le protocole est correct également). Vous voudrez également remplacer D2 par la première cellule de votre colonne URL
= "
Faites glisser" class = "redactor-autoparser-object"> https://www.example.com "& D …
vers le bas de la formule à la fin de votre table de fichier journal et obtenez une belle liste d'URL complètes:
Créez maintenant une autre colonne et nommez-la «Statut d'indexabilité». première cellule, utilisez un VLOOKUP semblable au suivant: = VLOOKUP (E2, CrawlSheet! A $ 1: B $ 1128,2, FALSE). Remplacez E2 par la première cellule de la colonne "URL complète", puis placez le tableau de recherche dans votre Si vous appliquez la formule à d’autres rôles, sélectionnez la bonne colonne (1 serait la première colonne de la table d’index, donc nombre 2 est celui que nous recherchons. Utilisez le mode de recherche de plage FALSE pour une correspondance exacte. Vous disposez maintenant d’une liste ordonnée d’URL et de leur statut d’indexabilité correspondant aux données d’exploration:

Fréquence d’analyse par profondeur et interna l links

Cette analyse nous permet de voir les performances de l’architecture d’un site en termes de budget et de capacité d’analyse. L'objectif principal est de voir si vous avez beaucoup plus d'URL que de demandes – et si vous en avez, vous avez un problème. Les robots ne doivent pas abandonner l'exploration de l'intégralité de votre site, ni découvrir un contenu important, ni gaspiller son budget d'exploration dans un contenu sans importance.

Astuce: Il est également utile d'utiliser un outil de visualisation d'analyse parallèlement à cette analyse pour voir l'architecture globale du site et voir s'il existe des «ramifications» ou des pages avec des liens internes médiocres.

Données importantes, procédez comme suit:

Parcourez votre site avec votre outil d'analyse préféré et exportez le rapport contenant le nombre de clics et le nombre de liens internes associés à chaque URL.
Dans mon cas, j'utilise le Screaming Frog. SEO Spider, exportation du rapport interne:
Utilisez un VLOOKUP pour faire correspondre votre URL à la colonne Crawl Depth et au nombre de liens Inlink, ce qui vous donnera un résultat semblable à celui-ci:
Selon le type de données que vous voulez voir, vous pouvez filtrer uniquement les URL renvoyant un code de 200 réponses à ce stade ou les transformer en options filtrables dans le tableau croisé-pivot créé ultérieurement. Si vous consultez un site de commerce électronique, vous souhaiterez peut-être vous concentrer uniquement sur les URL de produit. Si vous optimisez l'analyse des images, vous pouvez filtrer par type de fichier en filtrant la colonne URI de votre fichier journal à l'aide de la touche "Contenu". -Type ”de votre exportation d'analyse et en faisant une option pour filtrer avec un tableau croisé dynamique. Comme avec toutes ces vérifications, vous avez beaucoup d'options!
À l'aide d'un tableau croisé dynamique, vous pouvez maintenant analyser le taux d'analyse par profondeur d'analyse (en fonction du filtre du bot en question) avec les options suivantes:

quelque chose comme ce qui suit:

Des données meilleures que la console de recherche? Identification des problèmes d'analyse

La console de recherche est peut-être la solution idéale pour tout référencement, mais elle présente certainement des défauts. Les données historiques sont plus difficiles à obtenir et le nombre de lignes que vous pouvez afficher est limité (à l'heure actuelle, il est de 1 000). Mais, avec l’analyse de fichier journal, le ciel est la limite. Avec les vérifications suivantes, nous allons découvrir des erreurs d'analyse et de réponse qui donneront à votre site une vérification complète de l'état de santé.

Découvrir les erreurs d'analyse

Vérification évidente et rapide à ajouter à votre arsenal, tout ce que vous avez à faire. filtre la colonne d’état de votre fichier journal (dans mon cas, «sc-status» avec un type de fichier journal W3C) pour les erreurs 4xx et 5xx:

Recherche des réponses de serveur incohérentes

Une adresse URL donnée peut contenir différentes réponses du serveur Il peut s'agir d'un comportement normal, par exemple lorsqu'un lien brisé a été corrigé ou qu'un problème grave sur le serveur se produit, par exemple lorsqu'un trafic important sur votre site génère beaucoup plus d'erreurs internes du serveur et affecte la capacité d'analyse de votre site.

L'analyse des réponses du serveur est aussi simple que filtrer par URL et par date:

Sinon, si vous souhaitez voir rapidement en quoi une adresse URL varie dans le code de réponse, vous pouvez utiliser un tableau croisé dynamique avec les lignes définies sur l'URL. , les colonnes définies pour les codes de réponse et le Indiquez le nombre de fois où une URL a généré ce code de réponse. Pour réaliser cette configuration, créez un tableau croisé dynamique avec les paramètres suivants:

Ceci produira ce qui suit:

Comme vous pouvez le voir dans le tableau ci-dessus, vous pouvez clairement voir “/inconcistent.html” (en surbrillance dans la zone rouge). ) a des codes de réponse variables.

Afficher les erreurs par sous-répertoire

Pour savoir quels sous-répertoires posent le plus de problèmes, il suffit de filtrer les URL simplement. Filtrez la colonne URI (dans mon cas, «cs-uri-stem») et utilisez l'option de filtrage «contient» pour sélectionner un sous-répertoire particulier et toutes les pages de ce sous-répertoire (avec le caractère générique *):

. vérifié le sous-répertoire du blog, ce qui a donné les résultats suivants:

Afficher les erreurs par agent d'utilisateur

La recherche des robots en difficulté peut être utile pour de nombreuses raisons, notamment la visualisation des différences de performances de site Web entre les robots de bureau et mobiles, ou la recherche. Les moteurs sont mieux à même d'explorer davantage votre site.

Vous voudrez peut-être voir quelles URL en particulier posent problème avec un bot particulier. La méthode la plus simple consiste à utiliser un tableau croisé dynamique permettant de filtrer le nombre de fois qu’un code de réponse donné se produit par adresse URI. Pour ce faire, créez un tableau croisé dynamique avec les paramètres suivants:

À partir de là, vous pouvez filtrer par le bot et le type de code de réponse de votre choix, tels que l'image ci-dessous, où je filtre pour le bureau Googlebot afin de rechercher les erreurs 404: [19659138] Vous pouvez également utiliser un tableau croisé dynamique pour voir combien de fois un robot spécifique produit différents codes de réponse dans son ensemble en créant un tableau pivotant qui filtre par bot, compte par occurrence d'URI et utilise les codes de réponse sous forme de lignes. Pour ce faire, utilisez les paramètres ci-dessous:

Par exemple, dans le tableau croisé dynamique (ci-dessous), le nombre de codes de réponse reçus par Googlebot est le suivant:

Diagnostiquer les problèmes sur la page

Les sites Web nécessaires être conçu non seulement pour les humains, mais pour les bots. Le chargement des pages ne devrait pas être lent ou constituer un téléchargement volumineux, et avec l'analyse du fichier journal, vous pouvez voir ces deux mesures par URL du point de vue du bot.

Rechercher des pages lentes et volumineuses

Vous pouvez également trier votre journal. fichier par la colonne "temps pris" ou "temps de chargement" du plus grand au plus petit pour trouver les pages de chargement les plus lentes, il est préférable de consulter le temps de chargement moyen par URL, car d'autres facteurs pourraient avoir contribué à une demande lente autre

Pour ce faire, créez un tableau croisé dynamique avec les lignes définies sur la racine de l'URI ou l'URL et la valeur ajoutée sur le temps nécessaire au chargement ou au temps de chargement:

. flèche vers le bas, dans ce cas, où il est écrit «Somme du temps pris» et allez dans «Paramètres du champ de valeur»:

Dans la nouvelle fenêtre, sélectionnez «Moyenne» et vous êtes tous ensemble:

Maintenant vous devriez avoir quelque chose de similaire au suivant quand vous triez les racines d'URI par le temps le plus long au plus petit et au temps moyen prise:

Rechercher des pages volumineuses

Vous pouvez maintenant ajouter la colonne de taille de téléchargement (dans mon cas «sc-bytes») en utilisant les paramètres indiqués ci-dessous. N'oubliez pas que vous définissez la taille sur la moyenne ou la somme en fonction de ce que vous souhaitez voir. Pour moi, j'ai fait la moyenne:

Et vous devriez obtenir quelque chose de similaire au suivant:

Comportement des robots: vérification et analyse des bots

Le meilleur moyen de comprendre le comportement des robots et de l'exploration consiste à se connecter analyse des fichiers, car vous obtenez à nouveau des données réelles, et c’est beaucoup moins compliqué que d’autres méthodes.

Trouvez des URL non analysées

Prenez simplement l’exploration de votre site Web avec l’outil de votre choix, puis prenez votre log file et compare les URL pour trouver des chemins uniques. Vous pouvez le faire avec la fonctionnalité «Supprimer les doublons» d'Excel ou le formatage conditionnel, bien que l'ancien nécessite beaucoup moins de ressources processeur, en particulier pour les fichiers journaux plus volumineux. Facile!

Identifier les robots anti-spam

Les serveurs inutiles des serveurs de spam et de spoof bots sont facilement identifiables grâce aux fichiers journaux et à certains opérateurs de base de la ligne de commande. Une adresse IP est également associée à la plupart des demandes. Par conséquent, en utilisant votre colonne IP (dans mon cas, celle-ci s'intitule «c-ip» dans un journal au format W3C), supprimez tous les doublons pour rechercher chaque individu demandant une adresse IP.

Dans ce cas, vous devez suivre la procédure décrite dans le document de Google pour la vérification des adresses IP (remarque: pour les utilisateurs Windows, utilisez la commande nslookup):

https://support.google.com/webmasters/answer/80553?hl = fr

Ou, si vous vérifiez un bot bing, utilisez leur outil pratique:

https://www.bing.com/toolbox/verify-bingbot

Conclusion: l’analyse des fichiers journaux n’est pas si effrayante qu’elle en a l'air

Grâce à quelques outils simples à votre disposition, vous pouvez vous plonger dans le comportement de Googlebot. Lorsque vous comprenez comment un site Web gère l'exploration, vous pouvez diagnostiquer plus de problèmes que vous ne pouvez en traiter – mais le vrai pouvoir de Log File Analysis réside dans sa capacité à tester vos théories sur Googlebot et à étendre les techniques ci-dessus pour rassembler vos propres informations et révélations.

Quelles théories testeriez-vous en utilisant l'analyse de fichier journal? Quelles informations pourriez-vous recueillir à partir des fichiers journaux autres que ceux énumérés ci-dessus? Faites-moi savoir dans les commentaires ci-dessous.

Source link

Blog ARC Optimizer

juillet 22, 2019

Espionnage sur Google: 5 façons d'utiliser l'analyse de fichier journal pour révéler des informations inestimables sur le référencement

Que sont les fichiers journaux?