Fermer

mai 28, 2018

Combien de données manquent dans Google Analytics? Et autres trous noirs d'analyse


Si vous avez déjà comparé deux implémentations analytiques sur le même site ou si vous avez comparé vos analyses à celles de votre activité dans les ventes, vous avez probablement remarqué que les choses ne correspondent pas toujours. Dans cet article, j'expliquerai pourquoi les données de vos plates-formes d'analyse Web manquent et quel en sera l'impact. Certains des problèmes que je traite sont en réalité assez faciles à résoudre et ont un impact décent sur la circulation – il n'y a jamais eu de manière plus simple d'atteindre vos objectifs trimestriels. 😉

Je vais me concentrer sur GA (Google Analytics), car c'est le fournisseur le plus utilisé, mais la plupart des plateformes d'analyse sur la page ont les mêmes problèmes. Les plates-formes qui s'appuient sur les journaux de serveur évitent certains problèmes mais sont assez rares, donc je ne vais pas les couvrir en profondeur.

Note de côté: Notre configuration de test (plusieurs trackers & GA personnalisés)

Sur Distilled.net, nous avons une propriété standard de Google Analytics fonctionnant à partir d'une balise HTML dans GTM (Google Tag Manager). En outre, au cours des deux dernières années, j'ai exécuté trois implémentations Google Analytics simultanées supplémentaires, conçues pour mesurer les écarts entre différentes configurations.

(Si vous êtes seulement intéressé par mes conclusions, vous pouvez ignorer cette section mais si vous voulez en savoir plus sur la méthodologie, continuez à lire. Je comprends certains détails ici – les résultats sont plus faciles à suivre.)

Deux de ces implémentations supplémentaires, l'une dans Google Tag Manager et l'autre sur la page, exécutent des copies renommées du fichier JavaScript Google Analytics hébergées localement (par exemple www.distilled.net/static/js/au3.js au lieu de www.google-analytics.com/analytics.js ) pour les rendre plus difficiles à repérer pour les bloqueurs de publicités. J'ai également utilisé des fonctions JavaScript renommées ("tcap" et "Buffoon", plutôt que la norme "ga") et des trackers renommés ("FredTheUnblockable" et "AlbertTheImmutable") pour éviter d'avoir des trackers en double (ce qui peut souvent poser problème).

Cela a été inspiré à l'origine par les meilleures pratiques de l'ère 2016 sur la façon de configurer votre Google Analytics après les bloqueurs de publicités. Je ne peux pas trouver l'article original maintenant, mais vous pouvez en voir un très similaire de 2017 ici .

Enfin, nous avons ("DianaTheIndefatigable"), qui a juste un tracker renommé, mais utilise le code standard sinon et est implémenté sur la page. Ceci est de compléter l'ensemble de toutes les combinaisons de GTM modifiés et non modifiés et trackers sur la page.

Deux des trackers sur la page modifiés de Distilled, vus le https://www.distilled.net/

Dans l'ensemble, ce tableau résume nos configurations:

Tracker

Fonction renommée?

GTM ou sur la page?

Fichier JavaScript hébergé localement?

Par défaut

Non

Tag HTML GTM

Non

FredTheUnblockable

Oui – "tcap"

Tag HTML GTM

Oui

AlbertTheImmutable

Oui – "bouffon"

Sur la page

Oui

DianaTheIndefatigable

Non

Sur la page

Non

J'ai testé leur fonctionnalité dans divers environnements de navigateur / bloc d'annonces en surveillant les pages vues apparaissant dans les outils de développement du navigateur:

Raison n ° 1: bloqueurs de publicités

Les bloqueurs de publicité, principalement en tant qu'extensions de navigateur, gagnent en popularité depuis un certain temps. Principalement, cela concernait les utilisateurs à la recherche de meilleures performances et UX sur les sites chargés de publicités, mais au cours des dernières années, un accent accru sur la confidentialité s'est également installé, d'où la possibilité de bloquer les analyses.

Effet des bloqueurs de publicités

Certains bloqueurs de publicités bloquent les plates-formes d'analyse Web par défaut, d'autres peuvent être configurés pour le faire. J'ai testé le site de Distilled avec Adblock Plus et uBlock Origin, deux des extensions de navigateur de bureau les plus populaires, mais il convient de noter que les bloqueurs de publicité sont de plus en plus répandus sur les smartphones.

Voici comment les installations distillées se sont déroulées:

(Tous les numéros indiqués sont à partir d'avril 2018)

Configuration

Vs. Adblock

Vs. Adblock avec "EasyPrivacy" activé

Vs. uBlock Origine

GTM

Pass

Échec

Échec

Sur la page

Pass

Échec

Échec

GTM + script renommé et fonction

Pass

Échec

Échec

Sur la page + script renommé et fonction

Pass

Échec

Échec

On dirait que ces réglages modifiés n'ont pas fait grand chose!

Perte de données due aux bloqueurs de publicité: ~ 10%

L'utilisation du bloqueur de publicité peut se situer dans la plage 15-25% selon la région, mais beaucoup de ces installations seront les configurations par défaut d'AdBlock Plus , qui, comme nous l'avons vu ci-dessus, ne bloque pas le suivi. Les estimations de la part de marché d'AdBlock Plus parmi les bloqueurs de publicités varient de 50 à 70%, avec plus rapports récents tendant plus vers les premiers. Ainsi, si nous supposons que plus de 50% des bloqueurs de publicité installés bloquent l'analyse, cela laisse votre exposition à environ 10%.

Raison 2: Navigateur "ne pas suivre"

Ceci est une autre caractéristique motivée par la vie privée, cette fois-ci des navigateurs eux-mêmes. Vous pouvez l'activer dans les paramètres de la plupart des navigateurs actuels. Il n'est pas obligatoire que les sites ou les plates-formes obéissent à la requête «ne pas suivre», mais Firefox offre une fonctionnalité plus forte dans le même ensemble d'options, que j'ai décidé de tester également.

Effet de "ne pas suivre"

La plupart des navigateurs offrent maintenant la possibilité d'envoyer un message "Ne pas suivre". J'ai testé les dernières versions de Firefox et Chrome pour Windows 10.

Configuration

Chrome "ne pas suivre"

Firefox "ne pas suivre"

Firefox "protection de suivi"

GTM

Pass

Pass

Échec

Sur la page

Pass

Pass

Échec

GTM + script renommé et fonction

Pass

Pass

Échec

Sur la page + script renommé et fonction

Pass

Pass

Échec

Encore une fois, il ne semble pas que les configurations tordues font beaucoup de travail pour nous ici.

Perte de données due à "ne pas suivre": <1%

Seule la "Tracking Protection" de Firefox Quantum, introduite en février, a eu un effet sur nos trackers. Firefox a une part de marché de 5%, mais la protection de suivi n'est pas activée par défaut. Le lancement de cette fonctionnalité n'a eu aucun effet sur la tendance du trafic Firefox sur Distilled.net.

Raison 3: Filtres

C'est un peu évident, mais les filtres que vous avez configurés dans vos analyses peuvent réduire intentionnellement ou involontairement les niveaux de trafic signalés.

Par exemple, un filtre excluant certaines résolutions d'écran de niche que vous pensez être principalement des bots, ou du trafic interne, entraînera évidemment une légère sous-déclaration de votre configuration.

Perte de données due aux filtres:

L'impact est difficile à estimer, car la configuration variera évidemment d'un site à l'autre. Je recommande d'avoir une vue "maître" en double, non filtrée, au cas où vous vous apercevriez trop tard que vous avez perdu quelque chose que vous n'aviez pas prévu.

Raison 4: GTM vs sur la page contre déplacé sur la page

Google Tag Manager est devenu un moyen de plus en plus populaire de l'analyse ces dernières années, en raison de sa flexibilité accrue et la facilité des changements. Cependant, j'ai remarqué depuis longtemps qu'il peut avoir tendance à sous-déclarer ou à mettre en page.

J'étais également curieux de savoir ce qui se passerait si vous ne suiviez pas les directives de Google en configurant le code sur la page.

En combinant mes nombres avec ceux de mon collègue Dom Woodman (vous êtes le bienvenu pour le lien, Dom), qui utilise un add-on analytique Drupal ainsi que GTM, j'étais capable de voir la différence entre Google Tag Manager et le code de la page mal placé (tout en bas de la balise

) J'ai ensuite pondéré cela par rapport à mes propres données Google Tag Manager pour obtenir une image globale des 5 configurations.

Effet du GTM et du code sur la page mal placé

Trafic en pourcentage de la ligne de base (implémentation standard de Google Tag Manager):

Gestionnaire de balises Google

Modifié et Google Tag Manager

Code d'accès sur

Code Modifié & On-Page dans

Code mal placé sur la page

Chrome

100,00%

98,75%

100,77%

99,80%

94,75%

Safari

100,00%

99,42%

100,55%

102,08%

82,69%

Firefox

100,00%

99,71%

101,16%

101,45%

90,68%

Internet Explorer

100,00%

80,06%

112,31%

113,37%

77,18%

Il y a quelques plats à emporter ici:

  • Le code sur la page rapporte généralement plus de trafic que GTM
  • Le code modifié est généralement dans une marge d'erreur, sauf le code GTM modifié sur Internet Explorer (voir la note ci-dessous)
  • Un code d'analyse mal placé vous coûtera jusqu'à un tiers de votre trafic vs code sur la page correctement mis en œuvre, selon le navigateur (!)
  • Les configurations personnalisées, qui sont conçus pour obtenir plus de trafic en évitant les bloqueurs de publicité, ne font rien de la sorte. Il convient de noter également que les implémentations personnalisées ont effectivement moins de trafic que les standards. Pour le code sur la page, la marge d'erreur est dans la marge, mais pour Google Tag Manager, il y a une autre raison – parce que j'ai utilisé des profils non filtrés pour la comparaison, il y a beaucoup de spam dans le profil principal. , qui se fait principalement passer pour Internet Explorer. Notre profil principal est de loin le plus spammé, et sert également de référence ici, donc la différence entre le code sur la page et Google Tag Manager est probablement un peu plus grande que ce que je rapporte.

    J'ai aussi scindé les données par mobile, par curiosité:

    Trafic en pourcentage du niveau de référence (implémentation standard de Google Tag Manager):

    Gestionnaire de balises Google

    Modifié et Google Tag Manager

    Format d'une page sur

    Code Modifié & On-Page dans

    Code mal placé sur la page

    Bureau

    100,00%

    98,31%

    100,97%

    100,89%

    93,47%

    Mobile

    100,00%

    97,00%

    103,78%

    100,42%

    89,87%

    Tablet

    100,00%

    97,68%

    104,20%

    102,43%

    88,13%

    Il semblerait que les navigateurs mobiles, comme Internet Explorer, aient des difficultés avec Google Tag Manager.

    Les données perdues en raison de GTM: 1-5%

    Google Tag Manager semble vous coûter une quantité variable en fonction de la composition des navigateurs et des appareils qui utilisent votre site. Sur Distilled.net, la différence est d'environ 1,7%; Cependant, nous avons une audience inhabituellement lourde et tech-savvy (pas beaucoup d'Internet Explorer!). Selon la verticale, cela pourrait facilement gonfler jusqu'à 5%.

    Données perdues en raison d'un code sur la page mal placé: ~ 10%

    Sur Teflsearch.com, l'impact d'un code sur la page mal placé était d'environ 7,5%, par rapport à Google Tag Manager. Gardant à l'esprit que Google Tag Manager lui-même sous-rapports, la perte totale pourrait facilement être dans la gamme de 10%.

    Tour de bonus: données manquantes des canaux

    Je me suis concentré plus haut sur les zones où il se peut que vous manquiez des données. Cependant, il existe également de nombreuses façons de déformer les données ou de manquer des détails. Je vais les aborder plus brièvement, mais les principaux problèmes sont le trafic et l'attribution.

    Trafic sombre

    Le trafic sombre est un trafic direct qui ne passe pas vraiment par le direct, ce qui devient généralement de plus en plus courant. Les causes typiques sont:

    • Campagnes non balisées dans le courrier électronique
    • Campagnes non balisées dans les applications (notamment Facebook, Twitter, etc.)
    • Données fausses organiques
    • Données envoyées à partir d'implémentations de suivi bâclées (qui peuvent également apparaître comme auto-références )

    Il convient également de noter la tendance vers un trafic véritablement direct qui aurait historiquement été organique. Par exemple, en raison de l'auto-complétion des navigateurs de plus en plus sophistiquée, de l'historique inter-appareils, etc., les utilisateurs finissent par "taper" une URL qu'ils auraient recherchée historiquement.

    Attribution

    J'ai écrit à ce sujet plus en détail ici mais en général, une session dans Google Analytics (et toute autre plateforme) est une construction assez arbitraire – vous pourriez penser que c'est évident comment un groupe de résultats devrait être regroupé en une ou plusieurs sessions, mais en fait, le processus repose sur un certain nombre d'hypothèses assez discutables. En particulier, il convient de noter que Google Analytics attribue généralement le trafic direct (y compris le trafic noir) à la source non directe précédente, le cas échéant.

    Discussion

    J'ai été assez surpris par certaines de mes découvertes lors de mes recherches sur ce post, mais je suis sûr que je n'ai pas tout compris. Pouvez-vous penser à d'autres façons dont les données peuvent manquer dans l'analyse?




Source link