Fermer

mai 12, 2020

Utilisez le test Feuille de papier vierge pour optimiser le traitement du langage naturel


Si vous tendiez à quelqu'un une feuille de papier vierge et que la seule chose qui y était écrite était le titre de la page, comprendraient-ils ce que le titre voulait dire? Auraient-ils une idée claire de ce que pourrait être le véritable document? Si oui, alors félicitations! Vous venez de passer le test de feuille de papier vierge pour les titres de page parce que votre titre était descriptif.

Le test de feuille de papier vierge (BSoPT) est une idée dont Ian Lurie a beaucoup parlé au fil des ans, et récemment sur son nouveau site Web . C'est un test pour voir si ce que vous avez écrit a un sens pour quelqu'un qui n'a jamais rencontré votre marque ou votre contenu auparavant. Selon Ian, "ce texte, écrit sur une feuille de papier vierge, aura-t-il un sens pour un étranger?" Le test de feuille de papier vierge concerne la clarté sans contexte.

Mais que se passe-t-il si nous effectuons le BSoPT sur une machine plutôt que sur une personne? Notre expérience de pensée s'applique-t-elle toujours? Je le pense. Les machines ne savent pas lire, même les plus sophistiquées comme Google et Bing. Ils ne peuvent que deviner la signification de notre contenu, ce qui rend le test particulièrement pertinent.

J'ai une version alternative du BSoPT, mais pour les machines: si tout ce qu'une machine peut voir est une liste de mots qui apparaissent dans un document et à quelle fréquence, pourrait-il raisonnablement deviner de quoi parle le document?

Le test de la feuille de papier vierge pour la fréquence des mots

Si vous tendiez à quelqu'un une feuille de papier vierge et que la seule chose qui y était écrite était ce tableau de mots et les fréquences, pourraient-ils deviner de quoi parle cet article?

Un article sur l’affûtage d’un couteau est une assez bonne idée. L'article dont j'ai pris ce tableau de fréquence des mots était un guide pratique pour affûter un couteau de cuisine.

Et si les mots "étape" et "comment" apparaissaient dans le tableau? La personne qui lirait serait-elle plus sûre que cet article concerne l'aiguisage des couteaux, ou moins? Pourraient-ils dire si cet article traite de l'affûtage de couteaux de cuisine ou de couteaux de poche?

Si nous ne pouvons pas avoir une assez bonne idée de la raison d'être de cet article en fonction des mots qu'il utilise, alors il échoue au BSoPT pour la fréquence des mots.

Pouvons-nous encore utiliser la fréquence des mots pour le BERT?

Les anciennes approches de traitement du langage naturel (NLP) utilisées par les moteurs de recherche utilisaient une analyse statistique de la fréquence des mots et de la cooccurrence des mots pour déterminer ce qu'est une page. Ils ont ignoré l'ordre et une partie du discours des mots dans notre contenu, traitant essentiellement nos pages comme des sacs de mots.

Les outils que nous avons utilisés pour optimiser ce type de PNL ont comparé la fréquence des mots de notre contenu par rapport à nos concurrents et nous ont indiqué les lacunes dans l'utilisation des mots. En théorie, si nous ajoutions ces mots à notre contenu, nous nous classerions plus haut, ou du moins aiderions les moteurs de recherche à mieux comprendre notre contenu.

Ces outils existent toujours: Market Muse, SEMRush, seobility, Ryte, et d'autres ont une sorte de fréquence des mots ou capacité d'analyse des écarts TD-IDF. J'utilise un outil gratuit de fréquence des mots appelé Comparateur de texte en ligne, et cela fonctionne plutôt bien. Sont-ils toujours utiles maintenant que les moteurs de recherche ont avancé avec des approches NLP comme BERT? Je pense que oui, mais ce n'est pas aussi simple que plus de mots = de meilleurs classements.

Le BERT est beaucoup plus sophistiqué qu'une approche par sac de mots. BERT examine l'ordre des mots, une partie du discours et toutes les entités présentes dans notre contenu. Il est robuste et peut être formé pour faire beaucoup de choses, y compris la réponse aux questions et la reconnaissance d'entités nommées, nettement plus avancées que la fréquence de base des mots.

Cependant, le BERT doit encore examiner les mots présents sur la page pour fonctionner, et la fréquence des mots en est un résumé de base. Maintenant, l'emplacement des mots et une partie du discours importent davantage. Nous ne pouvons pas simplement saupoudrer les mots que nous avons trouvés dans notre analyse des écarts autour de la page.

Amélioration du contenu avec des outils de fréquence de mots

Pour aider à rendre notre contenu sans ambiguïté pour les machines, nous devons le rendre sans ambiguïté pour les utilisateurs. Réduire l'ambiguïté dans notre écriture consiste à choisir des mots spécifiques au sujet sur lequel nous écrivons. Si notre écriture utilise beaucoup de verbes génériques, de pronoms et d'adjectifs non thématiques, alors non seulement notre contenu est fade, mais il est difficile à comprendre.

Considérez cet exemple extrême de langage non spécifique:

«L'astuce pour trouver le bon couteau de chef est de trouver un bon équilibre entre caractéristiques, qualités et prix. Il devrait être fait de métal suffisamment solide pour garder son bord pendant une période décente. Vous devriez avoir une poignée confortable qui ne vous fatiguera pas. Vous n'avez pas non plus besoin de dépenser beaucoup. Le cuisinier à domicile n'a pas besoin d'un couteau japonais de 350 $. »

Cette copie n'est pas géniale. Il semble presque généré par la machine. Je ne peux pas imaginer qu'un article complet écrit comme ceci passerait le BSoPT pour la fréquence des mots.

Voici à quoi ressemble le tableau de fréquence des mots avec quelques mots vides supprimés:

Supposons maintenant que nous avons utilisé un outil de fréquence des mots sur quelques-uns pages qui se classent bien pour «comment choisir un couteau de chef» et ont constaté que ces parties du discours étaient utilisées assez souvent:

Entités : lame, acier, fatigue, acier damas, santoku, Shun (marque)
Verbes
: adhérence, hachage
Adjectifs
: parfait, dur, à haute teneur en carbone

L'incorporation de ces mots dans notre copie produirait un texte bien meilleur:

astuce pour trouver le couteau de chef parfait est d'obtenir le bon équilibre entre caractéristiques, qualités et prix. La lame doit être en acier suffisamment dur pour conserver une arête vive après une utilisation répétée. Vous devriez avoir une poignée ergonomique que vous pouvez saisir confortablement pour éviter que la fatigue ne s'étende. Vous n'avez pas non plus besoin de dépenser beaucoup. Le cuisinier à domicile n'a pas besoin d'un santoku en acier damas à haute teneur en carbone de Shun de 350 $. »

Ce texte amélioré sera plus facile à classer pour les machines, et meilleur à lire pour les utilisateurs. C'est aussi une bonne écriture que d'utiliser des mots pertinents pour votre sujet.

Regard vers l'avenir de la PNL

L'amélioration de notre contenu avec le test de feuille de papier vierge optimise-t-elle pour le BERT ou d'autres algorithmes PNL? Non je ne pense pas. Je ne pense pas qu'il y ait un ensemble spécial de mots que nous pouvons ajouter à notre contenu pour classer magiquement plus haut en exploitant BERT. Je vois cela comme un moyen de s'assurer que notre contenu est clairement compris par les utilisateurs et les machines.

Je prévois que nous nous rapprochons assez du point où l'idée d'optimiser pour la PNL sera considérée comme absurde. Peut-être que dans 10 ans, écrire pour les utilisateurs et écrire pour les machines sera la même chose en raison des progrès de la technologie. Mais même dans ce cas, nous devrons toujours nous assurer que notre contenu a du sens. Et le test de feuille de papier vierge sera toujours un excellent point de départ.




Source link