juin 12, 2018

Comment filtrer efficacement les spams, bots et autres indésirables dans Google Analytics

Il ne fait aucun doute que Google Analytics est l'un des outils les plus importants que vous pouvez utiliser pour comprendre le comportement de vos utilisateurs et mesurer les performances de votre site. Il y a une raison pour laquelle c'est utilisé par des millions à travers le monde.

Mais en dépit d'être une partie essentielle du processus décisionnel pour de nombreuses entreprises et blogs, je trouve souvent des sites (de toutes tailles) qui filtrent peu ou pas de données après l'installation du code de suivi, ce qui est une énorme erreur.

Pensez à une propriété Google Analytics sans données filtrées comme l'un de ces gâteaux en styromousse avec des parties comestibles. Cela peut sembler authentique par le haut, et il peut même sembler juste quand vous coupez une tranche, mais quand vous allez plus en profondeur, vous trouvez que c'est en grande partie artificiel.

Si vous êtes l'un de ceux qui n'ont pas configuré correctement Google Analytics et que vous ne faites attention qu'aux rapports de synthèse, vous ne remarquerez probablement pas qu'il y a toutes sortes d'informations bidon mélangées avec vos données utilisateur réelles.

Et par conséquent, vous ne réaliserez pas que vos efforts sont gaspillés en analysant des données qui ne représentent pas la performance réelle de votre site.

Pour vous assurer que vous obtenez seulement les vrais ingrédients et vous empêcher de manger cette tranche de mousse de polystyrène, je vais vous montrer comment utiliser les outils que GA fournit pour éliminer tout excès artificiel qui gonfle vos rapports et corrompt votre Les données.

Menaces courantes de Google Analytics

Comme la plupart des gens avec qui j'ai travaillé savent, j'ai toujours été obsédé par l'exactitude des données, principalement parce que, en tant que marketeur / analyste, il n'y a rien de pire que de se rendre compte pris une mauvaise décision parce que vos données n'étaient pas exactes. C'est pourquoi j'explore continuellement de nouvelles façons de l'améliorer.

À la suite de cette recherche, j'ai écrit mon premier article Moz sur l'importance du filtrage dans Analytics, en particulier sur le spam fantôme qui était un problème important à cette fois et est toujours (bien que dans une moindre mesure).

Bien que les méthodes décrites ici soient encore très utiles, j'ai depuis recherché des solutions pour d'autres types de spams Google Analytics et quelques autres menaces qui ne sont peut-être pas aussi ennuyeuses, mais qui sont tout aussi nuisibles pour Google Analytics .

Passons en revue, un par un.

Ghosts, robots d'exploration et autres types de spam

L'équipe de GA a fait du bon travail en gérant le spam fantôme. La quantité a été considérablement réduite au cours de la dernière année, par rapport à l'épidémie en 2015/2017 .

Cependant, les millions d'utilisateurs actuels et les milliers de nouveaux utilisateurs non avertis qui se joignent tous les jours, ainsi que la curiosité de la majorité de découvrir pourquoi quelqu'un se connecte à leur site, rendent Google Analytics trop attrayant pour que les spammeurs puissent partir seul.

La même logique peut s'appliquer à tout outil largement utilisé: quelles que soient ses mesures de sécurité, il y aura toujours des gens qui essaieront d'abuser de sa portée pour leur propre intérêt. Il est donc judicieux d'ajouter une couche de sécurité supplémentaire.

Prenez, par exemple, le CMS le plus populaire: WordPress. Malgré certaines mesures de sécurité intégrées, si vous ne prenez pas de mesures supplémentaires pour le protéger (comme définir un nom d'utilisateur et un mot de passe forts ou installer un plugin de sécurité), vous courez le risque d'être piraté.

La même chose arrive à Google Analytics, mais au lieu de plugins, vous utilisez des filtres pour le protéger.

Dans quels rapports pouvez-vous rechercher le spam?

Le trafic spam apparaîtra généralement sous la forme Referral mais il peut apparaître dans n'importe quelle partie de vos rapports, même dans des endroits non avertis comme une langue ou une page Titre.

Parfois les spammeurs essaieront de tromper par en utilisant des URL trompeuses qui sont très similaires aux sites connus, ou ils pourraient essayer d'attirer votre attention en utilisant des caractères inhabituels et emojis dans le nom de la source.

Indépendamment du type de spam, il y a 3 choses que vous devriez toujours faire lorsque vous pensez en avoir trouvé un dans vos rapports:

Ne visitez jamais l'URL suspecte. La plupart du temps, ils essaient de vous vendre quelque chose ou de promouvoir leur service, mais certains spammeurs peuvent avoir des scripts malveillants sur leur site.
Cela va de soi, mais n'installez jamais de scripts provenant de sites inconnus; Si, pour une raison quelconque, vous l'avez fait, retirez-le immédiatement et scannez votre site à la recherche de logiciels malveillants.
Filtrez le spam dans votre Google Analytics pour garder vos données propres (voir plus loin)

Si vous n'êtes pas sûr une entrée sur votre rapport est réelle, essayez de rechercher l'URL entre guillemets ("example.com"). Votre navigateur n'ouvrira pas le site, mais montrera plutôt les résultats de recherche; Si c'est un spam, vous verrez généralement des messages ou des forums se plaindre à ce sujet.

Si vous ne trouvez toujours pas d'informations sur cette entrée particulière, donnez-moi un cri – je pourrais avoir quelques connaissances pour vous.

Bot traffic

Un bot est un logiciel qui exécute des scripts automatisés sur Internet à des fins différentes.

Il y a toutes sortes de robots . Certains ont de bonnes intentions, comme les bots utilisés pour vérifier le contenu protégé par des droits d'auteur ou ceux qui indexent votre site pour les moteurs de recherche, et d'autres pas tellement, comme ceux qui raclent votre contenu pour le cloner.

Rapport de trafic de bot 2016. Source: Incapsule

Dans les deux cas, ce type de trafic n'est pas utile pour vos rapports et peut être encore plus dommageable que le spam, à cause de la quantité et parce qu'il est plus difficile à identifier (et donc à filtrer).

Il est à noter que les robots peuvent être bloqués sur votre serveur pour les empêcher d'accéder complètement à votre site, mais cela implique généralement d'éditer des fichiers sensibles qui requièrent des connaissances techniques élevées, comme je l'ai déjà dit.

Donc, à moins que vous ne receviez une attaque directe qui fausse vos ressources, je vous recommande de les filtrer dans Google Analytics.

Dans quels rapports pouvez-vous rechercher le trafic de bot?

Les bots s'afficheront généralement sous la forme Trafic direct dans Google Analytics. Vous devrez donc rechercher des modèles dans d'autres dimensions pour pouvoir les filtrer. Par exemple, les grandes entreprises qui utilisent des robots pour naviguer sur Internet auront généralement un fournisseur de services unique.

Je reviendrai plus en détail ci-dessous.

Trafic interne

La plupart des utilisateurs s'inquiètent et s'inquiètent du spam, ce qui est normal – personne n'aime les URL étranges apparaissant dans leurs rapports. Cependant, le spam n'est pas la plus grande menace pour votre Google Analytics.

Vous êtes!

Le trafic généré par les personnes (et les bots) travaillant sur le site est souvent négligé malgré son énorme impact négatif. La principale raison pour laquelle il est si dommageable est que contrairement au spam, le trafic interne est difficile à identifier une fois qu'il atteint votre Analytics, et il peut facilement être mélangé avec vos données utilisateur réelles.

Il existe différents types de trafic interne et différentes manières de traiter le problème.

Trafic interne direct

Testeurs, développeurs, équipe marketing, support, outsourcing … la liste continue. Tout membre de l'équipe qui visite le site Web ou le blog de l'entreprise à quelque fin que ce soit pourrait y contribuer.

Dans quels rapports pouvez-vous rechercher le trafic interne direct?

À moins que votre entreprise n'utilise un domaine FAI privé, ce trafic est difficile à identifier une fois qu'il vous arrive et s'affichera généralement comme Direct dans Google Analytics.

Sites / outils tiers

Ce type de trafic interne inclut le trafic généré directement par vous ou votre équipe lors de l'utilisation d'outils pour travailler sur le site; par exemple, des outils de gestion comme Trello ou Asana,

Il prend également en compte le trafic venant des bots effectuant un travail automatique pour vous; par exemple, les services utilisés pour surveiller les performances de votre site, comme Pingdom ou GTmetrix.

Voici quelques types d'outils à considérer:

Gestion de projet
Gestion des médias sociaux
Services de surveillance des performances / temps de fonctionnement
Outils de référencement

Dans quels rapports pouvez-vous rechercher le trafic interne des outils tiers?

Ce trafic s'affiche généralement en tant que référence dans Google Analytics.

Environnements de développement / staging

Certains sites Web utilisent un environnement de test pour apporter des modifications avant de les appliquer au site principal. Normalement, ces environnements de transfert ont le même code de suivi que le site de production. Par conséquent, si vous ne le filtrez pas, tous les tests seront enregistrés dans Google Analytics.

Dans quels rapports pouvez-vous rechercher des environnements de développement / mise en scène?

Ce trafic s'affiche généralement en tant que Direct dans Google Analytics, mais vous pouvez le trouver sous son propre nom d'hôte (plus d'informations plus loin).

Sites d'archives Web et services de cache

Les sites d'archives comme Wayback Machine offrent des vues historiques de sites Web. La raison pour laquelle vous pouvez voir ces visites sur Google Analytics – même si elles ne sont pas hébergées sur votre site – est que le code de suivi a été installé sur votre site lorsque le robot Wayback Machine a copié votre contenu dans ses archives.

Une chose est certaine: quand quelqu'un va vérifier l'apparence de votre site en 2015, il n'a aucune intention d'acheter quoi que ce soit sur votre site – il le fait simplement par curiosité , donc ce trafic n'est pas utile.

Dans quels rapports pouvez-vous rechercher le trafic provenant de sites d'archives Web et de services de cache?

Vous pouvez également identifier ce trafic sur le rapport de nom d'hôte.

Compréhension de base des filtres

Les solutions décrites ci-dessous utilisent les filtres de Google Analytics donc pour éviter les problèmes et la confusion, vous aurez besoin d'une compréhension de base de leur fonctionnement et vérifiez quelques prérequis.

Choses à considérer avant d'utiliser des filtres:

1. Créez une vue non filtrée.

Avant de faire quoi que ce soit, il est fortement recommandé de faire une vue non filtrée ; cela vous aidera à suivre l'efficacité de vos filtres. De plus, il fonctionne comme une sauvegarde en cas de problème.

2. Assurez-vous de disposer des autorisations appropriées.

Vous devez disposer des autorisations d'édition au niveau du compte pour créer des filtres. Les autorisations de modification au niveau de la vue ou de la propriété ne fonctionneront pas.

3. Les filtres ne fonctionnent pas rétroactivement.

Dans GA, les données historiques agrégées ne peuvent pas être supprimées, du moins pas de façon permanente. C'est pourquoi plus tôt vous appliquerez les filtres à vos données, mieux ce sera.

4. Les modifications apportées par les filtres sont permanentes!

Si votre filtre n'est pas correctement configuré parce que vous n'avez pas saisi l'expression correcte (entrées manquantes, faute de frappe, espace supplémentaire, etc.), vous courez le risque de perdre données pour toujours; il n'y a aucun moyen de récupérer les données filtrées.

Mais ne vous inquiétez pas – si vous suivez les recommandations ci-dessous, vous ne devriez pas avoir de problème.

5. Attendez-le.

La plupart du temps vous pouvez voir l'effet du filtre dans les minutes ou même les secondes après l'application; Cependant, officiellement, cela peut prendre jusqu'à vingt-quatre heures, alors soyez patient.

Types de filtres

Il existe deux principaux types de filtres: prédéfinis et personnalisés.

Les filtres prédéfinis sont très limités, donc je les utilise rarement. Je préfère utiliser les personnalisées car elles permettent les expressions régulières ce qui les rend beaucoup plus flexibles.

Dans les filtres personnalisés, il existe cinq types: exclude, include, minuscules / majuscules, search and replace et advanced.

Ici, nous allons utiliser les deux premiers: exclure et inclure. Nous sauverons le reste pour une autre occasion.

Essentials of regular expressions

Si vous savez déjà travailler avec des expressions régulières, vous pouvez passer à la section suivante.

REGEX (abréviation d'expressions régulières) est une chaîne de texte préparée pour correspondre à des motifs à l'aide de caractères spéciaux. Ces caractères aident à faire correspondre plusieurs entrées dans un même filtre.

Ne vous inquiétez pas si vous ne savez rien à leur sujet. Nous n'utiliserons que les bases, et pour certains filtres, il vous suffira de copier les expressions que j'ai pré-construites.

Caractères spéciaux REGEX

Il existe de nombreux caractères spéciaux dans REGEX, mais pour les expressions GA de base, nous pouvons nous concentrer sur trois:

^ Le caret: utilisé pour indiquer le début d'un motif,
$ Le signe dollar: utilisé pour indiquer la fin d'un motif,
| Le tuyau ou la barre: signifie "OU", et il est utilisé pour indiquer que vous commencez un nouveau modèle.

Lorsque vous utilisez le caractère pipe, vous ne devriez jamais:

Mettez-le au début de l'expression,
Mettez-le à la fin de l'expression,
Mettez 2 ou plus ensemble.

N'importe lequel d'entre eux va gâcher votre filtre et probablement votre analyse.

Un exemple simple d'utilisation de REGEX

Disons que je vais dans un restaurant qui a une machine automatique qui fait de la salade de fruits, et pour choisir le fruit, vous devriez utiliser des xxpressions régulières.

Cette super machine a le choix entre les fruits suivants: fraise, orange, myrtille, pomme, ananas et pastèque.

Pour faire une salade avec mes fruits préférés (fraise, myrtille, pomme et melon d'eau), je dois créer un REGEX qui correspond à tous. Facile! Puisque le caractère de pipe "|" signifie OU je pourrais faire ceci:

REGEX 1: fraise | myrtille | pomme | pastèque

Le problème avec cette expression est que REGEX considère aussi des correspondances partielles, et puisque l'ananas contient aussi "apple", il serait aussi sélectionné … et je n'aime pas l'ananas !

Pour éviter cela, je peux utiliser les deux autres caractères spéciaux que j'ai mentionnés précédemment pour faire une correspondance exacte pour apple. Le signe "^" (commence ici) et le signe dollar "$" (se termine ici). Il ressemblera à ceci:

REGEX 2: fraise | myrtille | ^ pomme $ | pastèque

L'expression sélectionnera précisément les fruits que je veux.

Mais disons que pour la démonstration, moins vous utilisez de personnages, moins la salade sera bonne. Pour optimiser l'expression, je peux utiliser la possibilité de correspondance partielle dans REGEX.

Puisque la fraise et la myrtille contiennent toutes les deux des "baies" et qu'aucun autre fruit ne figure dans la liste, je peux réécrire mon expression comme ceci:

REGEX optimisé: baie | pomme | pastèque

C'est tout – maintenant je peux obtenir ma salade de fruits avec les bons ingrédients, et à un prix inférieur.

3 façons de tester votre expression de filtre

Comme je l'ai déjà mentionné, les changements de filtre sont permanents, vous devez donc vous assurer que vos filtres et REGEX sont corrects. Il y a 3 façons de les tester:

Depuis la fenêtre du filtre il suffit de cliquer sur "Vérifier ce filtre", rapide et facile. Cependant, ce n'est pas le plus précis car il ne prend qu'un petit échantillon de données.

Utilisation d'un testeur REGEX en ligne ; très précis et coloré, vous pouvez également apprendre beaucoup de ces derniers, car ils vous montrent exactement les parties correspondantes et vous donnent une brève explication de pourquoi.

Utilisation d'un filtre temporaire dans la table dans GA ; vous pouvez tester votre filtre contre toutes vos données historiques. C'est la façon la plus précise de ne rien manquer.

Si vous faites un filtre simple ou si vous avez beaucoup d'expérience, vous pouvez utiliser la vérification de filtre intégrée. Cependant, si vous voulez être sûr à 100% que votre REGEX est OK, je vous recommande de construire l'expression sur le testeur en ligne, puis de la revérifier en utilisant un filtre intégré à la table.

Défi rapide REGEX

Voici un petit exercice pour vous aider à démarrer. Allez à cet exemple premade avec l'expression optimisée du cas de la salade de fruits et testez les 2 premières REGEX que j'ai faites. Vous verrez en direct comment les expressions ont un impact sur la liste.

Maintenant faites votre propre expression pour payer le moins possible pour la salade.

Rappelez-vous:

Nous voulons seulement de la fraise, de la myrtille, de la pomme et de la pastèque;
Moins vous utilisez de caractères, moins vous payez
Vous pouvez faire de petites correspondances partielles, à condition d'exclure les fruits interdits

Astuce: Vous pouvez le faire avec aussi peu que 6 caractères.

Maintenant que vous connaissez les bases de REGEX, nous pouvons continuer avec les filtres ci-dessous. Mais je vous encourage à mettre " en savoir plus sur REGEX " sur votre liste de tâches – ils peuvent être incroyablement utiles non seulement pour GA, mais pour de nombreux outils qui leur permettent.

Comment créer des filtres pour arrêter le spam, les bots et le trafic interne dans Google Analytics

Retour à notre événement principal: les filtres!

Par où commencer: Pour éviter d'être répétitif lors de la description des filtres ci-dessous, voici les étapes standard que vous devez suivre pour les créer:

Accédez à la section admin dans Google Analytics (l'icône en forme de roue dentée en bas à gauche),
Dans la colonne Vue (vue principale), cliquez sur le bouton "Filtres" t cliquez sur "Tous les filtres" dans la colonne Compte):
Cliquez sur le bouton rouge "+ Ajouter un filtre" ( si vous ne le voyez pas ou vous pouvez uniquement appliquer / supprimer Créez des filtres, puis vous n'avez pas les permissions d'édition au niveau du compte. [ sk votre administrateur pour les créer ou vous donner les autorisations.]
):
Puis suivez les instructions spécifiques. configuration pour chacun des filtres ci-dessous.

La fenêtre de filtre est votre meilleur partenaire pour améliorer la qualité de vos données Google Analytics. Il est donc conseillé de vous familiariser avec ces données.

Filtre de nom d'hôte valide (spam fantôme, environnements de développement)

Empêche le trafic de:

Spam Ghost
Noms d'hôte de développement
Sites de grattage
Sites de cache et d'archive

Ce filtre peut être la solution la plus efficace contre le spam. Contrairement à d'autres solutions communément partagées, le filtre de nom d'hôte est préventif et doit rarement être mis à jour.

Le spam Ghost gagne son nom car il ne visite jamais vraiment votre site. Il est envoyé directement aux serveurs de Google Analytics à l'aide d'une fonctionnalité appelée Protocole de mesure, un outil qui, dans des circonstances normales, permet de suivre des appareils que vous n'imaginez pas traçables, comme des machines à café ou des réfrigérateurs.

Les utilisateurs réels passent par votre serveur, puis les données sont envoyées à GA; il laisse donc des informations valables. Ghost spam est envoyé directement aux serveurs GA, sans connaître l'URL de votre site; donc toutes les données laissées sont fausses. Source: carloseo.com

Le spammeur abuse de cette fonctionnalité pour simuler des visites sur votre site, probablement en utilisant des scripts automatisés pour envoyer du trafic vers des codes de suivi générés aléatoirement (UA-0000000-1).

Puisque ces coups sont aléatoires, les spammeurs ne savent pas qui ils frappent; pour cette raison, le spam fantôme laissera toujours un hôte faux ou non défini. En utilisant cette logique, en créant un filtre qui n'inclut que des noms d'hôtes valides, tous les spams fantômes seront exclus.

Où trouver vos noms d'hôtes

Maintenant, voici la partie "difficile". Pour créer ce filtre, vous aurez besoin de faire une liste de vos noms d'hôtes valides .

Une liste de quoi?

Essentiellement, un nom d'hôte est n'importe quel endroit où votre code de suivi GA est présent. Vous pouvez obtenir cette information à partir du rapport de nom d'hôte:

Accédez à Audience> Sélectionner un réseau> En haut du tableau, remplacez la dimension principale par Nom d'hôte.

Si votre analyse est active, vous devriez voir au moins un: votre nom de domaine. Si vous en voyez plus, parcourez-les et faites une liste de tous ceux qui sont valides pour vous.

Types de Hostname que vous pouvez trouver

Les bons:

Type	Exemple
Votre domaine et ses sous-domaines	votredomaine.com
Outils associés à Google Analytics	YouTube, MailChimp
Passerelles de paiement	Shopify, systèmes de réservation
Services de traduction	Google Translate
Services d'accélération mobiles	Google weblight

Les mauvais (par mauvais, je veux dire pas utile pour vos rapports):

Type	Exemple / Description
Environnements de staging / de développement	staging.yourdomain.com
Sites d'archives Internet	web.archive.org
Scraping des sites qui ne se soucient pas de couper le contenu	L'URL du grattoir
Spam	La plupart du temps, ils montreront leur URL, mais parfois ils peuvent utiliser le nom d'un site web connu pour essayer de vous tromper. Si vous voyez une URL que vous ne reconnaissez pas, pensez simplement "puis-je la gérer?" Si la réponse est non, ce n'est pas votre nom d'hôte.
(non défini) hostname	Cela vient généralement du spam. En de rares occasions, il est lié à des problèmes de code de suivi.

Voici un exemple de mon rapport de nom d'hôte. De la vue non filtrée, bien sûr, la vue du maître est grinçant propre.

Maintenant, avec la liste de vos bons noms d'hôtes, faites une expression régulière. Si vous avez seulement votre domaine, alors c'est votre expression; si vous en avez plus, créez une expression avec chacun d'eux, comme nous l'avons fait dans l'exemple de la salade de fruits:

Nom d'hôte REGEX (exemple)

votredomaine.com | nomhôte2 | nomhôte3 | nomhôte4

Important! Vous ne pouvez pas créer plus d'un "Inclure le filtre de nom d'hôte"; Si vous le faites, vous allez exclure toutes les données. Essayez donc d'adapter tous vos noms d'hôtes en une seule expression (vous avez 255 caractères).

La configuration "filtre de nom d'hôte valide":

Nom du filtre : Inclure les noms d'hôte corrects
Type de filtre : Personnalisé> Inclure
Filtrez le champ : Hostname
Pattern : [hostname REGEX you created]

Filtre source de campagne (spam sur chenilles, sources internes)

Empêche le trafic de:

Spam sur chenilles
Outils internes à un tiers (Trello, Asana, Pingdom)

Note importante: Même si ces résultats sont affichés en référence, le champ que vous devriez utiliser dans le filtre est "Source de la campagne" – le champ "Référence" ne fonctionnera pas.

Filtre pour le spam sur chenilles

Le deuxième type de spam le plus courant est le crawler. Ils prétendent également être une visite valide en laissant une fausse URL source, mais contrairement aux spams fantômes, ceux-ci accèdent à votre site. Par conséquent, ils laissent un nom d'hôte correct.

Vous devrez créer une expression de la même manière que le filtre de nom d'hôte, mais cette fois, vous regrouperez les sources / URL du trafic de spam. La différence est que vous pouvez créer plusieurs filtres d'exclusion.

Crawler REGEX (exemple)

spam1 | spam2 | spam3 | spam4

Crawler REGEX (préconstruit)

Comme je l'ai promis, voici dernières expressions de crawler préconstruites que vous avez juste besoin de copier / coller.

La configuration du "filtre anti-spams":

Nom du filtre : Exclure les robots d'exploration 1
Type de filtre : Personnalisé> Exclure
Filtrez le champ : Source de la campagne
Filtre : [crawler REGEX]

Filtre pour les outils internes tiers

Bien que vous puissiez combiner votre filtre anti-spams avec des outils internes tiers, j'aime les séparer , pour les garder organisés et plus accessibles pour les mises à jour.

La configuration "filtre d'outils internes":

Nom du filtre : Exclure les sources d'outils internes
Motif de filtre : [tool source REGEX]

Outils internes REGEX (exemple)

trello | asana | redmine

Dans le cas où l'un des outils que vous utilisez en interne vous envoie également du trafic provenant de visiteurs réels, ne le filtrez pas. Utilisez à la place la requête "Exclure l'URL interne" ci-dessous.

Par exemple, j'utilise Trello, mais comme je partage des guides d'analyse sur mon site, certaines personnes les lient à leurs comptes Trello.

Filtres pour le spam de langage et d'autres types de spam

Les deux filtres précédents arrêteront la plupart du spam; Cependant, certains spammeurs utilisent des méthodes différentes pour contourner les solutions précédentes.

Par exemple, ils essaient de vous perturber en affichant l'un de vos noms d'hôte valides combiné avec une source connue comme Apple, Google ou Moz. Même mon site a été une cible (ne pas dire que tout le monde connaît mon site, il semble que les spammeurs ne sont pas d'accord avec mes guides).

Cependant, même si la source et l'hôte ont l'air bien, le spammeur injecte son message dans une autre partie de vos rapports comme le mot-clé, le titre de la page, et même en tant que langue.

Dans ces cas, vous devrez prendre la dimension / rapport où vous trouverez le spam et choisir ce nom dans le filtre. Il est important de considérer que le nom du rapport ne correspond pas toujours au nom dans le champ de filtre:

Nom du rapport	Champ de filtrage
Langue	Paramètres de langue
Référence	Source de la campagne
Mot clé organique	Terme de recherche
Prestataire de services	ISP Organization
Domaine du réseau	Domaine du fournisseur de services Internet

Voici quelques exemples.

La configuration "language spam / bot filter":

Nom du filtre : Exclure les messages non sollicités
Type de filtre : Personnalisé> Exclure
Champ de filtre : Paramètres de langue
Motif de filtre : [Language REGEX]

Langue Spam REGEX (Prébuilt)

s [^s] * s |. {15,} | . |, | ^ C $

L'expression ci-dessus exclut les fausses langues qui ne respectent pas le format requis. Par exemple, prenez ces messages bizarres apparaissant au lieu de langues régulières comme en-us ou es-es:

Exemples de spam de langue

La configuration du filtre de courrier indésirable organique / mot-clé:

Nom du filtre : Exclure les spams organiques
Type de filtre : Personnalisé> Exclure
Champ de filtre : Terme de recherche
Motif de filtre : [keyword REGEX]

Filtres pour le trafic de bot direct

Le trafic de Bot est un peu plus délicat à filtrer car il ne laisse pas de source comme spam, mais il peut toujours être filtré avec un peu de patience.

La première chose à faire est d'activer le filtrage des robots . À mon avis, il devrait être activé par défaut.

Accédez à la section Admin de vos analyses et cliquez sur Afficher les paramètres. Vous trouverez l'option "Exclure tous les hits des bots et des araignées connus" sous le sélecteur de devise:

Il serait merveilleux que cela prenne soin de tous les robots – un rêve devenu réalité. Cependant, il y a un piège: la clé ici est le mot «connu». Cette option ne prend en compte que les bots connus inclus dans la liste des bots et des araignées connus de l'IAB. C'est un bon début, mais loin d'être suffisant.

Il y a beaucoup de robots "inconnus" qui ne sont pas inclus dans cette liste, donc vous devrez jouer au détective et rechercher des modèles de trafic direct de bot à travers différents rapports jusqu'à ce que vous trouviez quelque chose qui peut être filtré en toute sécurité sans risquer vos données utilisateur réelles.

Pour lancer votre recherche de trace de bot, cliquez sur la case Segment en haut de n'importe quel rapport et sélectionnez le segment "Traffic direct".

Parcourez ensuite différents rapports pour voir si vous trouvez quelque chose de suspect.

Quelques rapports pour commencer:

Fournisseur de service
Version de navigateur
Domaine de réseau
Résolution de l'écran
Version Flash
Pays / Ville

Signes du trafic de robots

Bien que les robots soient difficiles à détecter, il y a quelques signaux que vous pouvez suivre:

Une augmentation anormale du trafic direct
Anciennes versions (navigateurs, OS, Flash)
Ils visitent la page d'accueil seulement (généralement représentée par une barre oblique "/" dans GA)
Extreme metrics:
- Taux de rebond proche de 100%,
- Temps de session près de 0 secondes,
- 1 page par session,
- 100% nouveaux utilisateurs.

Important ! Si vous trouvez du trafic qui vérifie plusieurs de ces signaux, il s'agit probablement d'un trafic de bot. Cependant, toutes les entrées avec ces caractéristiques ne sont pas des bots, et tous les robots ne correspondent pas à ces modèles, alors soyez prudent.

Le rapport "Service Provider" est peut-être le rapport le plus utile qui m'a aidé à identifier le trafic de bot. Les grandes entreprises utilisent fréquemment leur propre nom de fournisseur de services Internet.

J'ai aussi une expression pré-compilée pour les bots ISP, similaire aux expressions de crawler.

La configuration du filtre ISP bot:

Nom du filtre : Exclut les robots par l'ISP
Type de filtre : Personnalisé> Exclure
Filtrez le champ : ISP
Modèle de filtre : [ISP provider REGEX]

fournisseur de FAI bots REGEX (préconstruit)

hubspot | ^ google sllc $ | ^ google sinc . $ | Alibaba .com sllc | ovh shosting sinc .

Dernière expression de bot ISP

Filtre IP pour trafic interne

Nous avons déjà traité différents types de trafic interne, celui des sites de test (avec le filtre hostname) et celui des outils tiers (avec la campagne filtre source).

Maintenant, il est temps de regarder le plus commun et dommageable de tous: le trafic généré directement par vous ou un membre de votre équipe tout en travaillant sur une tâche pour le site.

Pour résoudre ce problème, la solution standard consiste à créer un filtre qui exclut l'adresse IP publique (et non privée) de tous les emplacements utilisés pour travailler sur le site.

Exemples de lieux / personnes devant être filtrés

Office
Support
Home
Developers
Hotel
Coffee shop
Bar
Mall
Any place that is regularly used to work on your site

To find the public IP of the location you are working at, simply search for "my IP" in Google. You will see one of these versions:

IP version	Example
Short IPv4	1.23.45.678
Long IPv6	2001:0db8:85a3:0000:0000:8a2e:0370:7334

No matter which version you see, make a list with the IP of each place and put them together with a REGEX, the same way we did with other filters.

IP address expression: IP1|IP2|IP3|IP4 and so on.

The static IP filter configuration:

Filter Name: Exclude internal traffic (IP)
Filter Type: Custom > Exclude
Filter Field: IP Address
Filter Pattern: [The IP expression]

Cases when this filter won’t be optimal:

There are some cases in which the IP filter won’t be as efficient as it used to be:

You use IP anonymization (required by the GDPR regulation). When you anonymize the IP in GA, the last part of the IP is changed to 0. This means that if you have 1.23.45.678, GA will pass it as 1.23.45.0, so you need to put it like that in your filter. The problem is that you might be excluding other IPs that are not yours.
Your Internet provider changes your IP frequently (Dynamic IP). This has become a common issue lately, especially if you have the long version (IPv6).
Your team works from multiple locations. The way of working is changing — now, not all companies operate from a central office. It's often the case that some will work from home, others from the train, in a coffee shop, etc. You can still filter those places; however, maintaining the list of IPs to exclude can be a nightmare,
You or your team travel frequently. Similar to the previous scenario, if you or your team travels constantly, there's no way you can keep up with the IP filters.

If you check one or more of these scenarios, then this filter is not optimal for you; I recommend you to try the “Advanced internal URL query filter” below.

URL query filter for internal traffic

If there are dozens or hundreds of employees in the company, it's extremely difficult to exclude them when they're traveling, accessing the site from their personal locations, or mobile networks.

Here’s where the URL query comes to the rescue. To use this filter you just need to add a query parameter. I add “?internal" to any link your team uses to access your site:

Internal newsletters
Management tools (Trello, Redmine)
Emails to colleagues
Also works by directly adding it in the browser address bar

Basic internal URL query filter

The basic version of this solution is to create a filter to exclude any URL that contains the query “?internal”.

Filter Name: Exclude Internal Traffic (URL Query)
Filter Type: Custom > Exclude
Filter Field: Request URI
Filter Pattern: ?internal

This solution is perfect for instances were the user will most likely stay on the landing page, for example, when sending a newsletter to all employees to check a new post.

If the user will likely visit more than the landing page, then the subsequent pages will be recorded.

Advanced internal URL query filter

This solution is the champion of all internal traffic filters!

It’s a more comprehensive version of the previous solution and works by filtering internal traffic dynamically using Google Tag Managera GA custom dimension, and cookies.

Although this solution is a bit more complicated to set up, once it's in place:

It doesn’t need maintenance
Any team member can use it, no need to explain techy stuff
Can be used from any location
Can be used from any device, and any browser

To activate the filter, you just have to add the text “?internal” to any URL of the website.

That will insert a small cookie in the browser that will tell GA not to record the visits from that browser.

And the best of it is that the cookie will stay there for a year (unless it is manually removed), so the user doesn’t have to add “?internal” every time.

Bonus filter: Include only internal traffic

In some occasions, it's interesting to know the traffic generated internally by employees — maybe because you want to measure the success of an internal campaign or just because you're a curious person.

In that case, you should create an additional view, call it “Internal Traffic Only,” and use one of the internal filters above. Just one! Because if you have multiple include filters, the hit will need to match all of them to be counted.

If you configured the “Advanced internal URL query” filter, use that one. If not, choose one of the others.

The configuration is exactly the same — you only need to change “Exclude” for “Include.”

Cleaning historical data

The filters will prevent future hits from junk traffic.

But what about past affected data?

I know I told you that deleting aggregated historical data is not possible in GA. However, there's still a way to temporarily clean up at least some of the nasty traffic that has already polluted your reports.

For this, we'll use an advanced segment (a subset of your Analytics data). There are built-in segments like “Organic” or “Mobile,” but you can also build one using your own set of rules.

To clean our historical data, we will build a segment using all the expressions from the filters above as conditions (except the ones from the IP filter, because IPs are not stored in GA; hence, they can’t be segmented).

To help you get started, you can import this segment template.

You just need to follow the instructions on that page and replace the placeholders. Here is how it looks:

In the actual template, all text is black; the colors are just to help you visualize the conditions.

After importing it, to select the segment:

Click on the box that says “All users” at the top of any of your reports
From your list of segments, check the one that says “0. All Users – Clean”
Lastly, uncheck the “All Users”

Now you can navigate through your reaports and all the junk traffic included in the segment will be removed.

A few things to consider when using this segment:

Segments have to be selected each time. A way of having it selected by default is by adding a bookmark when the segment is selected.
You can remove or add conditions if you need to.
You can edit the segment at any time to update it or add conditions (open the list of segments, then click “Actions” then “Edit”).

The hostname expression and third-party tools expression are different for each site.
If your site has a large volume of traffic, segments may sample your data when selected, so if you see the little shield icon at the top of your reports go yellow (normally is green), try choosing a shorter period (i.e. 1 year, 6 months, one month).

Conclusion: Which cake would you eat?

Having real and accurate data is essential for your Google Analytics to report as you would expect.

But if you haven’t filtered it properly, it’s almost certain that it will be filled with all sorts of junk and artificial information.

And the worst part is that if don't realize that your reports contain bogus data, you will likely make wrong or poor decisions when deciding on the next steps for your site or business.

The filters I share above will help you prevent the three most harmful threats that are polluting your Google Analytics and don’t let you get a clear view of the actual performance of your site: spam, bots, and internal traffic.

Once these filters are in place, you can rest assured that your efforts (and money!) won’t be wasted on analyzing deceptive Google Analytics data, and your decisions will be based on solid information.

And the benefits don’t stop there. If you're using other tools that import data from GA, for example, WordPress plugins like GADWP, excel add-ins like AnalyticsEdgeor SEO suites like Moz Prothe benefits will trickle down to all of them as well.

Besides highlighting the importance of the filters in GA (which I hope I made clear by now), I would also love that for the preparation of these filters to give you the curiosity and basis to create others that will allow you to do all sorts of remarkable things with your data.

Remember, filters not only allow you to keep away junk, you can also use them to rearrange your real user information — but more on that on another occasion.

That’s it! I hope these tips help you make more sense of your data and make accurate decisions.

Have any questions, feedback, experiences? Let me know in the comments, or reach me on Twitter @carlosesal.

Complementary resources:

Source link

Blog ARC Optimizer