mars 9, 2020

Analysé – Actuellement non indexé: un guide sur l'état de la couverture

Le rapport de couverture d'index de Google est absolument fantastique, car il donne au SEO un aperçu plus clair des décisions d'exploration et d'indexation de Google. Depuis son déploiement, nous l'utilisons presque quotidiennement chez Go Fish Digital pour diagnostiquer des problèmes techniques à grande échelle pour nos clients.

Dans le rapport, il existe de nombreux «statuts» différents qui fournissent aux webmasters des informations sur la façon dont Google gère le contenu de leur site. Bien que de nombreux statuts fournissent un certain contexte concernant les décisions d'exploration et d'indexation de Google, un reste flou: "Analysé – actuellement non indexé".

Depuis que le statut "Analysé – actuellement non indexé" a été signalé, plusieurs propriétaires de sites ont demandé sa signification. L'un des avantages de travailler dans une agence est de pouvoir accéder à de nombreuses données et, comme nous avons vu ce message sur plusieurs comptes, nous avons commencé à relever les tendances des URL signalées.

Définition de Google

Commençons par la définition officielle. Selon la documentation officielle de Google ce statut signifie: «La page a été explorée par Google, mais pas indexée. Il peut ou non être indexé à l'avenir; pas besoin de soumettre à nouveau cette URL pour l'exploration. "

Donc, essentiellement ce que nous savons, c'est que:

Google est en mesure d'accéder à la page
Google a pris du temps pour explorer la page
Après l'exploration, Google a décidé ne pas l'inclure dans l'index

La clé pour comprendre ce statut est de penser aux raisons pour lesquelles Google déciderait «consciemment» de ne pas indexer. Nous savons que Google n'a aucun problème à trouver la page, mais pour une raison quelconque, il estime que les utilisateurs ne tireraient aucun avantage de la trouver.

Cela peut être assez frustrant, car vous ne savez peut-être pas pourquoi votre contenu n'est pas indexé. Ci-dessous, je vais détailler certaines des raisons les plus courantes que notre équipe a vues pour expliquer pourquoi ce statut mystérieux pourrait affecter votre site Web.

1. Faux positifs

Priorité: Faible

Notre première étape consiste à toujours effectuer quelques vérifications ponctuelles des URL marquées dans la section «Analysé – actuellement non indexé» pour l'indexation. Il n'est pas rare de trouver des URL qui sont signalées comme exclues, mais qui se trouvent finalement dans l'index de Google.

Par exemple, voici une URL qui est signalée dans le rapport de notre site Web: https://gofishdigital.com/meetup/[19459014diplomatique19659002Cependantlorsquevousutilisezunopérateurderecherchedesitenouspouvonsvoirquel'URLestenfaitinclusdansl'indexdeGoogleVouspouvezlefaireenajoutantletexte«site:»avantl'URL

Si vous voyez des URL signalées sous ce statut, je vous recommande de commencer par utiliser l'opérateur de recherche de site pour déterminer si l'URL est indexée ou non. Parfois, il s’agit de faux positifs.

Solution: ne faites rien! Vous êtes doué.

2. URL de flux RSS

Priorité: Faible

Ceci est l'un des exemples les plus courants que nous voyons. Si votre site utilise un flux RSS, vous trouverez peut-être des URL apparaissant dans le rapport "Crawled – actuellement non indexé" de Google. Plusieurs fois, ces URL auront la chaîne «/ feed /» ajoutée à la fin. Ils peuvent apparaître dans le rapport comme suit:

Google recherche ces URL de flux RSS liées à partir de la page principale. Ils sont souvent liés à l'utilisation d'un élément "rel = alternative". Les plugins WordPress tels que Yoast peuvent générer automatiquement ces URL.

Solution: ne faites rien! Vous êtes bon.

Google choisit probablement de ne pas indexer ces URL, et pour une bonne raison. Si vous accédez à une URL de flux RSS, vous verrez un document XML comme celui-ci:

Bien que ce document XML soit utile pour les flux RSS, Google n'a pas besoin de l'inclure dans l'index. Cela fournirait une très mauvaise expérience car le contenu n'est pas destiné aux utilisateurs.

3. URL paginées

Priorité: Faible

Une autre raison extrêmement courante de l'exclusion «Analysé – actuellement non indexé» est la pagination. Nous verrons souvent un bon nombre d'URL paginées apparaître dans ce rapport. Ici, nous pouvons voir des URL paginées apparaître à partir d'un très grand site de commerce électronique:

Solution: ne faites rien! Vous êtes bon.

Google devra parcourir les URL paginées pour obtenir une analyse complète du site. Il s'agit de son chemin vers du contenu tel que des pages de catégorie plus approfondies ou des pages de description de produit. Cependant, bien que Google utilise la pagination comme chemin d'accès au contenu, il n'a pas nécessairement besoin d'indexer les URL paginées elles-mêmes.

Si quoi que ce soit, assurez-vous de ne rien faire pour influer sur l'exploration de la pagination individuelle. Assurez-vous que toute votre pagination contient une balise canonique auto-référentielle et est exempte de toute balise "nofollow". Cette pagination permet à Google d'explorer d'autres pages clés de votre site. Vous souhaiterez donc certainement que Google continue de l'explorer.

4. Produits expirés

Priorité: moyenne

Lors de la vérification ponctuelle des pages individuelles répertoriées dans le rapport, un problème courant que nous constatons chez les clients est l'URL qui contient du texte notant les produits «expirés» ou «en rupture de stock». Sur les sites de commerce électronique en particulier, il semble que Google vérifie la disponibilité d'un produit particulier. S'il détermine qu'un produit n'est pas disponible, il procède à l'exclusion de ce produit de l'indice.

Cela est logique du point de vue de l'expérience utilisateur, car Google pourrait ne pas vouloir inclure dans l'index du contenu que les utilisateurs ne sont pas en mesure d'acheter.

Cependant, si ces produits sont réellement disponibles sur votre site, cela pourrait entraîner de nombreuses opportunités de référencement manquées. En excluant les pages de l'index, votre contenu n'a aucune chance de se classer.

De plus, Google ne se contente pas de vérifier le contenu visible sur la page. Dans certains cas, nous n'avons trouvé aucune indication dans le contenu visible que le produit n'est pas disponible. Cependant, lors de la vérification des données structurées, nous pouvons voir que la propriété «disponibilité» est définie sur «OutOfStock».

Il semble que Google tire à la fois du contenu visible et des données structurées sur la disponibilité d'un produit particulier. Il est donc important de vérifier à la fois le contenu et le schéma.

Solution: vérifiez la disponibilité de votre inventaire.

Si vous trouvez des produits réellement disponibles répertoriés dans ce rapport, vous voudrez vérifier tous vos produits qui peuvent être incorrectement répertoriés comme indisponibles. Effectuez une analyse de votre site et utilisez un outil d'extraction personnalisé comme Screaming Frog pour extraire les données de vos pages de produit.

Par exemple, si vous voulez voir à l'échelle toutes vos URL avec un schéma défini sur "OutOfStock", vous pouvez définir la "Regex" sur: "disponibilité": "

Ceci: " class = "redactor-autoparser-object"> http://schema.org/OutOfStock " devrait supprimer automatiquement toutes les URL avec cette propriété:

Vous pouvez exporter cette liste et effectuer des références croisées avec les données d'inventaire à l'aide d'Excel ou d'outils de Business Intelligence. Cela devrait vous permettre de trouver rapidement des écarts entre les données structurées sur votre site et produits réellement disponibles. Le même processus peut être répété pour rechercher des cas où votre contenu visible indique que les produits ont expiré.

5. 301 redirections

Priorité: Moyenne

Un exemple intéressant que nous avons vu apparaissent sous ce statut sont les URL de destination de redi souvent, nous verrons que Google explore l'URL de destination mais ne l'inclut pas dans l'index. Cependant, en examinant le SERP, nous constatons que Google indexe une URL de redirection. Étant donné que l'URL de redirection est celle indexée, l'URL de destination est ajoutée au rapport "Analysé – actuellement non indexé".

Le problème ici est que Google ne reconnaît pas encore la redirection. Par conséquent, il considère l'URL de destination comme un «doublon» car il indexe toujours l'URL de redirection.

Solution: créez un sitemap.xml temporaire.

Si cela se produit sur un grand nombre d'URL, il convient de prendre des mesures pour envoyer des signaux de consolidation plus forts à Google. Ce problème pourrait indiquer que Google ne reconnaît pas vos redirections en temps opportun, ce qui entraîne des signaux de contenu non consolidés.

Une option pourrait être la mise en place d'un "plan du site temporaire". Il s'agit d'un plan du site que vous pouvez créer pour accélérer l'exploration de ces URL redirigées. C'est une stratégie que John Mueller avait précédemment recommandée .

Pour en créer une, vous devrez rétroconcevoir les redirections que vous avez créées dans le passé:

Exportez toutes les URL du rapport "Analysé – actuellement non indexé".
Faites-les correspondre dans Excel avec des redirections qui ont été précédemment configurées.
Recherchez toutes les redirections qui ont une URL de destination dans le compartiment "Analysé – actuellement non indexé".
Créez un sitemap.xml statique de ces URL avec Screaming Frog.
Téléchargez le plan du site et surveillez le rapport "Analysé – actuellement non indexé" dans la Search Console.

L'objectif ici est que Google explore les URL dans le plan temporaire sitemap.xml plus fréquemment qu'il ne l'aurait fait autrement. Cela entraînera une consolidation plus rapide de ces redirections.

6. Contenu mince

Priorité: moyenne

Parfois, nous voyons des URL incluses dans ce rapport dont le contenu est extrêmement mince. Ces pages peuvent avoir tous les éléments techniques correctement configurés et peuvent même être correctement liées en interne, cependant, lorsque Google s'exécute dans ces URL, il y a très peu de contenu réel sur la page. Voici un exemple de page de catégorie de produit où il y a très peu de texte unique:

Cette page de liste de produits a été signalée comme "Crawled – actuellement non indexé". Cela peut être dû au contenu très fin de la page.

Cette page est probablement trop mince pour que Google pense qu'elle est utile ou il y a si peu de contenu que Google considère qu'il s'agit d'un doublon d'une autre page. Le résultat est que Google supprime le contenu de l'index.

Voici un autre exemple: Google a pu explorer une page de composant de témoignage sur le site Go Fish Digital (illustré ci-dessus). Bien que ce contenu soit unique sur notre site, Google ne pense probablement pas que le témoignage d'une seule phrase devrait être considéré comme une page indexable.

Une fois de plus, Google a pris la décision de l'exécutif d'exclure la page de l'index en raison d'un manque de qualité.

Solution: ajoutez plus de contenu ou ajustez les signaux d'indexation.

Les étapes suivantes dépendront de l'importance de l'indexation de ces pages.

Si vous pensez que la page doit absolument être incluse dans l'index, pensez à ajouter du contenu supplémentaire. Cela aidera Google à voir la page comme offrant une meilleure expérience aux utilisateurs.

Si l'indexation n'est pas nécessaire pour le contenu que vous trouvez, la plus grande question est de savoir si vous devez ou non prendre les mesures supplémentaires pour signaler fortement que ce contenu ne doit pas être indexé. Le rapport "Analysé – actuellement non indexé" indique que le contenu peut apparaître dans l'index de Google, mais Google choisit de ne pas l'inclure.

Il pourrait également y avoir d'autres pages de faible qualité auxquelles Google n'applique pas cette logique. Vous pouvez effectuer une recherche générale de «site:» pour trouver du contenu indexé répondant aux mêmes critères que les exemples ci-dessus. Si vous constatez qu'un grand nombre de ces pages apparaissent dans l'index, vous voudrez peut-être envisager des initiatives plus fortes pour vous assurer que ces pages sont supprimées de l'index, comme une balise «noindex», une erreur 404 ou les supprimer de votre structure de liaison interne complètement.

7. Contenu en double

Priorité: élevée

Lors de l'évaluation de cette exclusion sur un grand nombre de clients, il s'agit de la priorité la plus élevée que nous ayons constatée. Si Google considère que votre contenu est en double, il peut explorer le contenu mais choisir de ne pas l'inclure dans l'index. C'est l'une des façons dont Google évite la duplication SERP. En supprimant le contenu en double de l'index, Google garantit que les utilisateurs disposent d'une plus grande variété de pages uniques avec lesquelles interagir. Parfois, le rapport étiquetera ces URL avec un statut «Dupliquer» («Dupliquer, Google a choisi un canonique différent de l'utilisateur»). Par contre, ce n'est pas toujours le cas.

Il s'agit d'un problème hautement prioritaire, en particulier sur de nombreux sites de commerce électronique. Les pages clés telles que les pages de description de produit incluent souvent des descriptions de produit identiques ou similaires à de nombreux autres résultats sur le Web. Si Google les reconnaît comme trop similaires à d'autres pages en interne ou en externe, il peut les exclure de l'index tous ensemble.

Solution: ajoutez des éléments uniques au contenu en double.

Si vous pensez que cette situation s'applique à votre site , voici comment vous le testez:

Prenez un extrait du texte en double potentiel et collez-le dans Google.
Dans l'URL SERP, ajoutez la chaîne suivante à la fin: "& num = 100". Cela vous montrera les 100 premiers résultats.
Utilisez la fonction «Rechercher» de votre navigateur pour voir si votre résultat apparaît dans les 100 premiers résultats. Si ce n'est pas le cas, votre résultat pourrait être filtré hors de l'index.
Revenez à l'URL SERP et ajoutez la chaîne suivante à la fin: "& filter = 0". Cela devrait vous montrer le résultat non filtré de Google (merci, Patrick Stox, pour l'astuce ).
Utilisez la fonction "Rechercher" pour rechercher votre URL. Si vous voyez votre page apparaître maintenant, c'est une bonne indication que votre contenu est filtré hors de l'index.
Répétez ce processus pour quelques URL avec un contenu potentiel en double ou très similaire que vous voyez dans le rapport "Analysé – actuellement non indexé".

Si vous voyez régulièrement que vos URL sont filtrées hors de l'index, vous devrez prendre des mesures pour rendre votre contenu plus unique.

Bien qu'il n'y ait pas de norme universelle pour atteindre cet objectif, voici quelques options:

Réécrivez le contenu pour qu'il soit plus unique sur les pages à haute priorité.
Utilisez des propriétés dynamiques pour injecter automatiquement des informations uniques contenu sur la page.
Supprimez de grandes quantités de contenu inutile de passe-partout. Les pages contenant plus de texte modèle qu'un texte unique peuvent être lues en double.
Si votre site dépend du contenu généré par les utilisateurs, informez les contributeurs que tout le contenu fourni doit être unique. Cela peut aider à éviter les cas où les contributeurs utilisent le même contenu sur plusieurs pages ou domaines.

8. Contenu accessible aux particuliers

Priorité: élevée

Dans certains cas, les robots d'exploration de Google ont accès à du contenu auquel ils ne devraient pas avoir accès. Si Google trouve des environnements de développement, il peut inclure ces URL dans ce rapport. Nous avons même vu des exemples de Google explorant le sous-domaine d'un client particulier qui est configuré pour les tickets JIRA. Cela a provoqué une exploration explosive du site, qui se concentrait sur les URL qui ne devraient jamais être prises en compte pour l'indexation.

Le problème ici est que l'exploration du site par Google n'est pas ciblée et que cela prend du temps à explorer (et éventuellement à indexer) les URL qui ne sont pas destinées aux chercheurs. Cela peut avoir des ramifications massives pour le budget d'exploration d'un site.

Solution: ajustez vos initiatives d'exploration et d'indexation.

Cette solution dépendra entièrement de la situation et de ce à quoi Google peut accéder. En règle générale, la première chose que vous voulez faire est de déterminer comment Google est capable de découvrir ces URL privées, en particulier si c'est via votre structure de liens interne.

Lancez une analyse à partir de la page d'accueil de votre sous-domaine principal et voyez si des sous-domaines indésirables peuvent être accessibles par Screaming Frog via une analyse standard. Si c'est le cas, il est sûr de dire que Googlebot pourrait trouver exactement les mêmes voies. Vous souhaiterez supprimer tous les liens internes vers ce contenu pour réduire l'accès de Google.

L'étape suivante consiste à vérifier l'état d'indexation des URL à exclure. Est-ce que Google les garde suffisamment hors de l'index, ou certains ont-ils été pris dans l'index? Si Google n'indexe pas une grande partie de ce contenu, vous pouvez envisager d'ajuster votre fichier robots.txt pour bloquer immédiatement l'exploration. Sinon, les balises «noindex», les canoniques et les pages protégées par mot de passe sont tous sur la table.

Étude de cas: contenu généré par l'utilisateur en double

Pour un exemple concret, il s'agit d'un exemple où nous avons diagnostiqué le problème sur un site client. Ce client est similaire à un site de commerce électronique car une grande partie de son contenu est composé de pages de description de produit. Cependant, ces pages de description de produit sont toutes du contenu généré par l'utilisateur.

Essentiellement, les tiers sont autorisés à créer des listes sur ce site. Cependant, les tiers ajoutaient souvent des descriptions très courtes à leurs pages, ce qui entraînait un contenu mince. Le problème qui se produisait fréquemment était que ces pages de description de produit générées par les utilisateurs étaient prises dans le rapport "Analysé – actuellement non indexé". Cela a entraîné une opportunité de référencement manquée, car les pages capables de générer du trafic organique ont été complètement exclues de l'index.

Lorsque nous avons suivi le processus ci-dessus, nous avons constaté que les pages de description de produit du client étaient assez minces en termes de contenu unique. Les pages qui étaient exclues ne semblaient avoir qu'un paragraphe ou moins de texte unique. En outre, la majeure partie du contenu de la page était du texte basé sur des modèles qui existait dans tous ces types de page. Étant donné qu'il y avait très peu de contenu unique sur la page, le contenu basé sur des modèles peut avoir amené Google à afficher ces pages en tant que doublons. Le résultat a été que Google a exclu ces pages de l'index, citant le statut "Crawled – actuellement non indexé".

Pour résoudre ces problèmes, nous avons collaboré avec le client afin de déterminer lequel des modèles de contenu n'avait pas besoin d'exister sur chaque page de description de produit. Nous avons pu supprimer le contenu de modèle inutile de milliers d'URL. Cela a entraîné une diminution significative des pages "Crawled – actuellement non indexées", car Google a commencé à voir chaque page comme plus unique.

Conclusion

Avec un peu de chance, cela aide les spécialistes du marketing de recherche à mieux comprendre le mystérieux statut «Analysé – actuellement non indexé» dans le rapport Index Coverage. Bien sûr, il existe probablement de nombreuses autres raisons pour lesquelles Google choisirait de catégoriser des URL comme celle-ci, mais ce sont les cas les plus courants que nous avons vus avec nos clients à ce jour.

Dans l'ensemble, le rapport de couverture d'index est l'un des outils les plus puissants de la Search Console. J'encourage fortement les spécialistes du marketing de recherche à se familiariser avec les données et les rapports, car nous trouvons régulièrement des comportements d'exploration et d'indexation sous-optimaux, en particulier sur les grands sites. Si vous avez vu d'autres exemples d'URL dans le rapport "Exploré – actuellement non indexé", faites-le moi savoir dans les commentaires!

Source link

Blog ARC Optimizer

mars 9, 2020

Analysé – Actuellement non indexé: un guide sur l'état de la couverture

Définition de Google

1. Faux positifs

Priorité: Faible

Solution: ne faites rien! Vous êtes doué.

2. URL de flux RSS

Priorité: Faible

Solution: ne faites rien! Vous êtes bon.

3. URL paginées

Priorité: Faible

Solution: ne faites rien! Vous êtes bon.

4. Produits expirés

Priorité: moyenne

Solution: vérifiez la disponibilité de votre inventaire.

5. 301 redirections

Priorité: Moyenne

Solution: créez un sitemap.xml temporaire.

6. Contenu mince

Priorité: moyenne

Solution: ajoutez plus de contenu ou ajustez les signaux d'indexation.

7. Contenu en double

Priorité: élevée

Solution: ajoutez des éléments uniques au contenu en double.

8. Contenu accessible aux particuliers

Priorité: élevée

Solution: ajustez vos initiatives d'exploration et d'indexation.

Étude de cas: contenu généré par l'utilisateur en double

Conclusion

Articles similaires

Blog ARC Optimizer

Définition de Google

1. Faux positifs

Priorité: Faible

Solution: ne faites rien! Vous êtes doué.

2. URL de flux RSS

Priorité: Faible

Solution: ne faites rien! Vous êtes bon.

3. URL paginées

Priorité: Faible

Solution: ne faites rien! Vous êtes bon.

4. Produits expirés

Priorité: moyenne

Solution: vérifiez la disponibilité de votre inventaire.

5. 301 redirections

Priorité: Moyenne

Solution: créez un sitemap.xml temporaire.

6. Contenu mince

Priorité: moyenne

Solution: ajoutez plus de contenu ou ajustez les signaux d'indexation.

7. Contenu en double

Priorité: élevée

Solution: ajoutez des éléments uniques au contenu en double.

8. Contenu accessible aux particuliers

Priorité: élevée

Solution: ajustez vos initiatives d'exploration et d'indexation.

Étude de cas: contenu généré par l'utilisateur en double

Conclusion

Partager :

Articles similaires