Il n'y a pas si longtemps, mes collègues et moi-même chez Advanced Web Ranking avons élaboré une étude HTML basée sur environ 8 millions de pages d'index provenant des vingt premiers résultats de Google pour plus de 30 millions de mots-clés. ] Nous avons parlé des résultats du balisage et de la façon dont les vingt pages de résultats Google les implémentent, puis nous sommes allés encore plus loin et obtenu des informations sur l’utilisation du langage HTML .
Qu'est-ce que cela signifie?
La façon dont le HTML est écrit dicte ce que les utilisateurs voient et comment les moteurs de recherche interprètent les pages Web. Une page HTML valide et bien formatée réduit également les risques d'interprétation erronée (données structurées, métadonnées, langage ou codage) par les moteurs de recherche.
Il s'agit d'un audit technique de référencement, comme nous le souhaitions depuis le début: une ventilation de l'utilisation du HTML et de la manière dont les résultats se rapportent aux techniques modernes de référencement et aux meilleures pratiques de référencement.
Dans cet article, nous allons aborder des sujets tels que les balises méta que Google comprend, les données structurées JSON-LD, la détection de langue et l'utilisation d'en-têtes. , liens sociaux et métadistribution, AMP, etc.
Meta tags que Google comprend
Quand on parle des principaux moteurs de recherche en tant que sources de trafic, il s’agit malheureusement de Google et des autres, Duckduckgo gagne du terrain récemment et Bing presque inexistant.
Ainsi, dans cette section, nous nous concentrerons uniquement sur les métabarques répertoriées par Google dans le Centre d’aide de la console de recherche .
La méta-description est un extrait de code de 150 caractères qui résume le contenu d'une page. Les moteurs de recherche affichent la méta description dans les résultats de la recherche lorsque la phrase recherchée est contenue dans la description.
SELECTOR |
COUNT |
---|---|
4 391 448 |
|
374 649 |
|
13 831 |
Aux extrémités, nous avons trouvé 685,341 méta-éléments dont le contenu est inférieur à 30 caractères et 1 293 842 éléments dont le texte contient plus de 160 caractères.
Le titre n'est techniquement pas une balise méta, mais il est utilisé conjointement avec meta name = "description".
Il s’agit de l’une des deux balises HTML les plus importantes en matière de référencement. Selon le W3C, c’est également une nécessité, ce qui signifie qu’aucune page n’est valide avec une balise manquante .
La recherche suggère que si vous conservez vos titres sous un nombre raisonnable de 60 caractères vous pouvez attendez-vous à ce que vos titres soient correctement rendus dans les SERP. Dans le passé, il y avait des signes indiquant que les résultats de recherche de Google avaient été allongés, mais ce n'était pas un changement permanent.
Compte tenu de tout ce qui précède, parmi les 6 263 396 titres que nous avons trouvés, 1 846 642 balises de titre semblent être trop longues ( plus de 60 caractères) et 1 985 020 titres avaient une longueur jugée trop courte (moins de 30 caractères).
SELECTOR
COUNT
* [1 9659027] 6 263 396
manquanttag
1 285 738
Autre fait intéressant, parmi les sites classés à la page 1–2 de Google, 351 516 (~ 5% du total, soit 5%) utilisent le même texte pour le titre et h1 sur leurs pages d'index.
De plus, saviez-vous qu'avec HTML5, il vous suffit de spécifier le doctype HTML5 et un titre pour avoir une page parfaitement valide?
red
«Ces balises méta peuvent contrôler le comportement de l'analyse et de l'indexation dans les moteurs de recherche. La balise Meta des robots s'applique à tous les moteurs de recherche, tandis que la balise Meta "googlebot" est propre à Google. "
- Les balises META comprises par Google
SELECTOR |
COUNT |
---|---|
[196519659029] 1,577,202 | |
139 458 |
Extrait du code HTML contenant un méta-robot et ses paramètres de contenu.
Les méta-directives sur les robots fournissent donc des instructions aux moteurs de recherche pour savoir comment explorer. et indexer le contenu d'une page. Laissant de côté le nombre de méta de googlebot qui est assez faible, nous étions curieux de voir les paramètres de robots les plus fréquents, considérant qu’un énorme idée fausse est qu’il faut ajouter une balise meta dans la tête de votre HTML. Voici le top 5:
SELECTEUR |
COUNT |
|||
---|---|---|---|---|
|
632.822 |
|||
|
180,226 |
|||
|
||||
|
111 777 |
|||
|
83,639 |
"Lorsque les utilisateurs recherchent votre site, les résultats de recherche Google affichent parfois un champ de recherche spécifique, ainsi que des liens directs vers votre site. Cette balise META indique à Google de ne pas afficher la zone de recherche de liens annexes. ”
– Les balises META que Google comprend
SELECTEUR |
COUNT |
---|---|
|
1 263 |
Impropre, pas de nombreux sites Web déconseillent explicitement à Google de ne pas afficher de zone de recherche de liens annexes lorsque leur site apparaît dans les résultats de la recherche. Les méta-tags que Google comprend
Il peut arriver que fournir votre contenu à un groupe d'utilisateurs beaucoup plus important ne soit pas souhaité. Comme indiqué dans la réponse du service d'assistance de Google ci-dessus, cette balise META indique à Google que vous ne souhaitez pas qu'ils fournissent une traduction pour cette page.
SELECTEUR |
COUNT |
---|---|
|
7 569 |
"Vous pouvez utiliser cette balise sur la page de niveau supérieur de votre site pour vérifier la propriété de Search Console."
– Les balises META prises en compte par Google
SELECTOR |
COUNT |
---|---|
|
1 327 616 |
Pendant que nous étions sur le sujet, saviez-vous que si vous êtes un propriétaire vérifié de Google Analytics vérifiera automatiquement le même site Web dans la console de recherche?
«Ceci définit le type de contenu et le jeu de caractères de la page.»
– Les méta-tags que Google comprend
Ceci est fondamentalement l'une des bonnes balises méta. Il définit le type de contenu et le jeu de caractères de la page. En considérant le tableau ci-dessous, nous avons constaté que près de la moitié seulement des pages d'index analysées définissent un méta-jeu de caractères.
SELECTOR |
COUNT |
---|---|
|
3 909 788 |
"Cette balise META envoie l'utilisateur à un autre utilisateur. vers une nouvelle URL après un certain laps de temps et est parfois utilisée comme une simple forme de redirection. "
– Les méta-tags que Google comprend
Il est préférable de rediriger votre site à l'aide d'une redirection 301 plutôt que d'une redirection. meta refresh, en particulier lorsque nous supposons que les redirections 30x ne perdent pas le PageRank et que le W3C recommande de ne pas utiliser cette balise . Google n’est pas un fan non plus, il est recommandé d’utiliser une redirection côté serveur 301.
SELECTOR |
COUNT |
---|---|
|
7,167 |
Le nombre total de pages d'index que nous avons analysées est de 7.5M. trouvé 7 167 pages qui utilisent la méthode de redirection ci-dessus. Les auteurs n’ont pas toujours le contrôle sur les technologies côté serveur et ils utilisent apparemment cette technique pour permettre les redirections côté client.
De plus, utilisant Workers est une alternative de pointe à surmonter. problèmes lors de l'utilisation d'anciennes piles technologiques et des limitations de la plate-forme.
«Cette balise indique au navigateur comment rendre une page sur un appareil mobile. La présence de cette balise indique à Google que la page est compatible avec les appareils mobiles. ”
– Les méta-tags que Google comprend
SELECTOR |
COUNT |
---|---|
|
4 992 791 |
Le 1er juillet 2019, tous les sites ont commencé à être indexés à l'aide de l'indexation mobile de Google . Lighthouse vérifie s'il existe une balise meta name = "viewport" dans la tête du document . Cette méta doit figurer sur chaque page Web, quel que soit le cadre ou le système de gestion de contenu utilisé. .
Compte tenu de ce qui précède, nous nous attendions à ce que plus de sites Web que les 4 992 791 sur 7,5 millions de pages analysées utilisent un meta name = "viewport" valide dans leurs sections de tête.
Designing mobile Les sites conviviaux garantissent le bon fonctionnement de vos pages sur tous les appareils. Assurez-vous donc que votre page Web est adaptée aux mobiles ici.
"Marque une page comme contenant du contenu réservé aux adultes, pour indiquer qu'elle soit filtrée par Résultats de SafeSearch. ”
– Les balises META comprises par Google
SELECTOR |
COUNT |
---|---|
|
133 387 |
Cette balise indique le degré de maturité du contenu. Il n'a pas été ajouté aux balises META que Google comprend jusqu'à récemment. Consultez cet article de Kate Morris sur comment étiqueter le contenu pour adultes .
Données structurées JSON-LD
Les données structurées sont un format normalisé permettant de fournir des informations sur une page. classer le contenu de la page. Le format des données structurées peut être Microdonnées, RDFa et JSON-LD. Ceci aide Google à comprendre le contenu de votre site et à activer des fonctionnalités de résultat de recherche spéciales pour vos pages.
Lors d'une conversation avec l'impressionnant Dan Shure il a eu la bonne idée de rechercher des données structurées, telles que le logo de l'organisation, dans les résultats de recherche et dans le graphique de connaissances.
Dans cette section, nous utiliserons JSON-LD ( JavaScript Object Notation for Linked Data) uniquement pour collecter des informations de données structurées. C’est ce que Google recommande de toute façon de fournir des indices sur la signification d’une page Web.
Quelques éléments utiles à ce sujet: [19659091] À Google I / O 2019, il a été annoncé que l’outil de test des données structurées serait remplacé par l’outil de test Rich Results .
L’étude HTML de Advanced Web Ranking s’appuie sur l’analyse des pages d’index uniquement. Ce qui est intéressant, c'est que même si cela n'est pas indiqué dans les instructions, Google ne semble pas se soucier des données structurées sur les pages d'index, comme indiqué dans une Stack Overflow answer de Gary Illyes il y a plusieurs années. Pourtant, sur les types de données structurés JSON-LD compris par Google nous avons trouvé un total de 2 727 045 fonctionnalités:
FONCTIONS DE DONNÉES STRUCTURÉES
COUNT
Article
35,961
Breadcrumb
30.306
Livre
143
Carrousel
13.884
Contact d'entreprise
41.588
Course
676
Examen critique:
28
Classification globale de l'employeur
7
Evénement
18 385
. Enquête sur les faits
7
. Page de référence
16
. How-to
8
Offre d'emploi
355 [19659103] Livestream
232
Entreprises locales
200 974
Logo
442,324
Média
1 274
Occupation
0
Produit
] Page de questions et réponses
20
Recette
434
Extrait de révision
72 732
Zone de recherche de liens annexes
1 354 754
Profil social
de Sony] [] 780
Speakable
516
Contenu abonné et payant
363
Vidéo
14 349
rel = canonical
Le rel = élément canonique, souvent appelé le "lien canonique", "est un élément HTML qui aide les webmasters à éviter les problèmes de contenu en double. Pour ce faire, il spécifie "l'URL canonique", la version "préférée" d'une page Web.
SELECTOR |
COUNT |
---|---|
|
3 183 575 |
meta name = "keywords"
] Ce n'est pas nouveau que soit obsolète et que ne l'utilise plus . Il semble également que soit un signal de spam pour la plupart des moteurs de recherche.
"Bien que les principaux moteurs de recherche n'utilisent pas de méta-mots-clés pour le classement, ils sont très utiles pour les moteurs de recherche sur site tels que Solr."
– JP Sherman explique pourquoi ce méta obsolète pourrait encore être utile de nos jours.
SÉLECTEUR |
COUNT |
---|---|
|
2 577 850 |
|
256,220 |
|
14 127 |
Rubriques
Entre 7,5 millions de pages, h1 (59,6%) et h2 (58,9%) font partie des vingt -Huit éléments utilisés sur la plupart des pages. Néanmoins, après avoir rassemblé toutes les rubriques, nous avons constaté que h3 était la rubrique présentant le plus grand nombre de comparutions – 29 565 562 h3s sur un total de 70 428 376 rubriques trouvées.
Faits aléatoires: [19659091] Les éléments h1 – h6 représentent les six niveaux de titres de section. Voici les statistiques complètes d'utilisation des en-têtes mais nous avons également trouvé 23 116 de h7s et 7 276 de h8s . C'est drôle, car beaucoup de personnes n'utilisent même pas très souvent h6s .
tags manquants
Cet éternel problème de référencement et d'accessibilité semble toujours être commun après. analyser cet ensemble de données. Sur un total de 669 591 743 images, près de 90% manquent de l'attribut alt ou l'utilisent avec une valeur vide.
SELECTOR
COUNT
img
669 591 743
img alt = "*"
79 953 034
img alt = "" 19659102] 42 815 769
img w / missing alt
546 822 940
Détection de la langue
Selon les spécifications , les informations de langue spécifiées via l'attribut lang peuvent être utilisées par un agent utilisateur pour contrôler le rendu de différentes manières.
La partie qui nous intéresse ici concerne "l'assistance aux moteurs de recherche".
lang attr ibute est utilisé pour identifier la langue du contenu textuel sur le Web. Ces informations aident les moteurs de recherche à renvoyer des résultats spécifiques à une langue. Elles sont également utilisées par les lecteurs d'écran qui changent de profil linguistique pour fournir l'accent et la prononciation corrects. "
– Léonie Watson
Il y a quelque temps, John Mueller a déclaré John Mueller. Google ignore l'attribut HTML lang et recommande l'utilisation de link hreflang à la place. La documentation de la console de recherche Google indique que Google utilise des balises hreflang pour faire correspondre la préférence de langue de l'utilisateur à la bonne variante de vos pages.
Nous sommes allés un peu plus loin et avons recherché ces nouvelles valeurs d'attributs de lien, en trouvant 278 rel = "sponsorisé" et 123 rel = "ugc". . Pour nous assurer que nous disposions des données pertinentes pour ces requêtes, nous avons mis à jour le jeu de données des pages d'index spécifiquement deux semaines après l'annonce de Google à ce sujet. Ensuite, en utilisant des métriques d'autorité Moz, nous avons trié les principales URL dont l'utilisation correspond à au moins une des paires rel = "sponsorisée" ou rel = "ugc":
- https://www.seroundtable.com/ [19659092] https://letsencrypt.org/
- https://www.newsbomb.gr/
- https://thehackernews.com/
- https://www.ccn.com/
- https : //www.chip.pl/
- https://www.gamereactor.se/
- https://www.tribes.co.uk/
AMP
Pages mobiles accélérées (AMP) sont une initiative de Google qui vise à accélérer le Web mobile. De nombreux éditeurs rendent leur contenu disponible parallèlement au format AMP.
Pour informer Google et les autres plates-formes de ce contenu, vous devez relier les pages AMP et non-AMP ensemble.
Parmi les millions de pages que nous avons consultées, nous n'avons trouvé que 24 807 pages non-AMP référençant leur version AMP en utilisant rel = amphtml.
Social
Nous voulions savoir à quel point un site Web est partageable ou social, sachant donc que Josh Buchea a créé un liste impressionnante avec tout ce qui pourrait aller dans la tête de votre page Web, nous en avons extrait les sections sociales et obtenu les numéros suivants:
Facebook Open Graph
SELECTOR
COUNT
méta propriété = "fb: app_id" content = "*"
277 406
méta propriété = "og: url" content = "*"
2 909 878
méta propriété = "og: type" content = "*"
2 660 215
meta property = "og: titre" content = "*"
3 050 462
meta property = "og: image" content = "*"
2 603 057
meta property = "og: image: alt" content = "*"
54 513
meta property = "og: description" content = "*"
1 384 658
méta property = "og: site_name" content = "*"
2 618 713
meta property = "og: locale" content = "*"
1 384 658
meta property = "article: author" content = " * "
14.289
Carte Twitter
SELECTEUR
COUNT
meta name = "twitter: card" content = "*"
1 355 733
meta name = "twitter: site" content = "*" [19659029] 512,907
meta name = "twitter: créateur" content = "*"
283 533
meta name = "twitter: url" content = "*"
265 478
meta name = "twitter : title "content =" * "
716,577
meta name =" twitter: description "content =" * "
1 145 413
meta name =" twitter: image "content =" * "[19659029] 716,577
meta name = "twitter: image: alt" content = "*"
30,339
En parlant de liens, nous avons saisi tous ceux qui indiquaient les réseaux sociaux les plus populaires.
SÉLECTEUR
COUNT
6 180 313
5 214 768
1 1458 828
[1945928]
Apparemment, de nombreux sites Web continuent de créer un lien vers leurs profils Google+, ce qui est probablement un oubli compte tenu de la fermeture récente de Google+ .
rel = prev / next
D'après. Selon Google, utiliser rel = prev / next n’est plus un signal d’indexation, comme annoncé plus tôt cette année:
«Après avoir évalué nos signaux d’indexation, nous avons décidé de mettre fin à la procédure rel = prev / next. Des études montrent que les utilisateurs aiment le contenu d'une seule page, visent cela autant que possible, mais plusieurs parties valent également pour la recherche Google. "
- Tweeté par Google Webmasters
Cependant, dans le cas où cela compte pour vous , Bing dit qu'ils les utilisent comme indices pour la découverte de la page et la compréhension de la structure du site.
«Nous les utilisons (comme la plupart des balises) comme indicateurs pour la découverte de la page et la compréhension de la structure du site. À ce stade, nous ne fusionnons pas les pages dans l'index à partir de celles-ci et nous n'utilisons pas prev / next dans le modèle de classement. ”
- Frédéric Dubut de Bing
Néanmoins , voici les statistiques d'utilisation trouvées lors de l'examen de millions de pages d'index:
SELECTOR | COUNT |
---|---|
<link rel = "prev" href = "*" |
20,160 |
<link rel = "next" href = "*" |
242.387 |
Voilà à peu près tout!
Savoir à quoi ressemble une page Web moyenne à l'aide de données provenant d'environ 8 millions de pages d'index peut nous aider à visualiser les tendances et à visualiser utilisation courante du HTML en matière de SEO, techniques modernes et émergentes. Mais cela peut être une saga sans fin - bien qu'il y ait beaucoup de chiffres et de statistiques à explorer, il reste encore beaucoup de questions auxquelles il faut répondre:
- Nous savons comment les données structurées sont utilisées à l'état sauvage. Comment va-t-il évoluer et combien de données structurées seront suffisamment prises en compte?
- Devons-nous nous attendre à ce que l'utilisation de la PGA augmente quelque part dans le futur?
- Comment rel = "sponsorisé" et rel = "ugc" vont-ils changer notre façon d'écrire le HTML quotidiennement? Lors du codage de liens externes, outre le combo target = "_ blank" et rel = “noopener”, nous avons maintenant considérer également les combinaisons rel = "sponsorisé" et rel = "ugc".
- Apprendrons-nous jamais à toujours ajouter des valeurs d'attributs alt aux images ayant une fonction au-delà de la décoration?
- Combien d'autres balises méta ou attributs supplémentaires devons-nous ajouter à une page Web pour faire plaisir aux moteurs de recherche? Avons-nous vraiment besoin de l'attribut HTML récemment annoncé de data-nosnippet ? Ensuite, data-allowednippet ?
Nous aurions aimé aborder d'autres points, comme les valeurs de "délai jusqu'au premier octet" (TTFB), qui sont fortement corrélés au classement; Je recommanderais vivement HTTP Archive pour cela. Ils explorent périodiquement les meilleurs sites Web et enregistrent des informations détaillées sur presque tout. Selon les dernières informations, ils ont analysé 4 565 694 sites Web uniques avec des partitions complètes de Lighthouse et ayant stocké des technologies particulières comme jQuery ou WordPress pour l'ensemble des données. Un immense soutien à Rick Viscomi qui fait un travail remarquable en tant que «steward», comme il se dit lui-même.
Effectuer cette étude à grande échelle était une aventure amusante. Nous avons beaucoup appris et nous espérons que vous avez trouvé les chiffres ci-dessus aussi intéressants que nous. S'il y a une étiquette ou un attribut en particulier pour lequel vous aimeriez voir les numéros, veuillez me le faire savoir dans les commentaires ci-dessous.
Encore une fois, consultez les résultats complets de l'étude HTML et faites-moi savoir ce que vous pensez!
Source link