Fermer

mars 29, 2021

Pourquoi l'algorithme SMITH de Google est un événement important pour le référencement – Voici pourquoi # 262


Google investit massivement dans l'apprentissage automatique et ses capacités de traitement du langage depuis un certain temps pour aider à améliorer l'expérience et la satisfaction globale des utilisateurs.

Dans cet épisode de la série de vidéos de marketing numérique primée Voici pourquoi, Jessica Peck, Senior Analytics Consultant chez CVS, rejoint Eric pour discuter de ce qu'est l'algorithme SMITH de Google et pourquoi c'est un événement important pour le référencement.

Ne manquez pas un seul épisode de Voici pourquoi . Cliquez sur le bouton d'inscription ci-dessous pour être averti par e-mail chaque fois qu'une nouvelle vidéo est publiée.

Abonnez-vous à Here's Why

Resources

Transcript

Eric: Salut tout le monde. Je m'appelle Eric Enge et je suis directeur de l'unité commerciale Digital Marketing Solutions chez Perficient. Aujourd'hui, je suis heureux d'accueillir à nouveau Jess Peck. Elle a fait partie de la série lorsqu'elle était employée chez Perficient en tant qu'associée en technologie marketing. Et maintenant, elle est consultante senior en analytique chez CVS, où elle surveille les meilleures pratiques en matière de données et le balisage d'analyse QA. Dites bonjour Jess.

Jess: Salut, tout le monde.

Eric: Cela fait un moment, et c’est formidable de vous revoir.

Jess: C’est formidable d’être de retour. Je suis vraiment ravi de vous parler aujourd'hui de l'algorithme SMITH.

Eric: Alors, est-ce un autre algorithme Google avec le nom d'une personne et un acronyme intelligent?

Jess: Oui

Eric: Et les spécialistes du marketing devraient-ils le faire? , comme, abandonner tout ce sur quoi ils travaillent pour commencer à chasser SMITH?

Jess: Non.

Eric: Très bien. Eh bien, c’est tout pour cette vidéo. Oh, je plaisante. Alors, qu'est-ce que SMITH et pourquoi devrions-nous nous en préoccuper?

Jess: Donc, SMITH est un modèle technique proposé pour le traitement du langage naturel par Google. Il est bien meilleur pour faire correspondre des documents plus longs entre eux et bien mieux pour décomposer rapidement des textes longs et comprendre comment des parties d'un texte se rapportent à lui-même.

Eric: Oui, c'est un énorme pas en avant dans les capacités de traitement linguistique de Google. Alors, pouvez-vous expliquer SMITH?

Jess: Eh bien, je vais essayer d’y entrer tout en gardant cette vidéo divertissante et pas trop longtemps. Alors, voyons comment nous faisons. SMITH signifie Siamese Multi-depth Transformer-based Hierarchical, et c'est le bit SMITH, encodeur. Et c’est une vraie bouchée, mais cela a du sens si nous le décomposons. C’est siamois, au sens de deux modèles. Il a plusieurs profondeurs. Il est basé sur des transformateurs comme BERT. Et c'est hiérarchique, donc a fondamentalement différentes structures.

 Digital Marketing - The Digital Essentials, Part 1
The Digital Essentials, Part 1

Une stratégie numérique convaincante aligne les expériences client, l'exécution commerciale et la bonne technologie en tant que le marché et votre concurrence évoluent constamment. Nos Digital Essentials mettent en évidence les aspects les plus convaincants des trois pour vous aider à réagir et à répondre à cette évolution en cours.

Obtenez le guide

Parlons donc des types de problèmes que SMITH tente de résoudre. Les problèmes de correspondance sémantique peuvent être classés en quatre catégories différentes en fonction de la longueur du texte, donc si l'une est courte, ou l'autre longue, ou vice versa, ou si elles sont toutes les deux courtes, ou les deux longues. Ainsi, les développeurs du modèle SMITH ont examiné le travail qui était fait et trouvé lorsque les deux textes sont longs, les faire correspondre nécessite une compréhension plus approfondie de la relation sémantique, comme l'appariement de modèles entre des fragments avec une longue distance entre eux. [19659002]  Classification des différentes tâches de mise en correspondance sémantique

Eric: Exactement. Et les longs documents contiennent des structures internes, comme des sections et des passages, ainsi que des phrases. Et lorsque vous êtes une personne lisant une page, la structure de cette page fait partie de la signification globale du texte, et le modèle d'apprentissage automatique doit prendre en compte les informations de structure du document pour une meilleure correspondance.

Jess: Et , Ouais c'est vrai. Et plus concrètement, à cause de tout cela, l'apprentissage automatique occupe déjà beaucoup de mémoire. Mais le traitement de longs textes est beaucoup plus susceptible de déclencher des problèmes pratiques tels que des mémoires TPU ou GPU, et d'autres choses du genre, du moins sans une conception de modèle vraiment soignée. Les réseaux de neurones ou RNN récurrents sont mauvais pour des tâches plus longues et plus importantes. Les modèles comme Transformers et BERT sont meilleurs dans ce genre de tâche. Mais construire un encodeur de texte long basé sur Transformer est difficile, car gérer la mémoire est difficile, et il y a un temps de calcul quadratique, qui est exactement ce à quoi il ressemble.

Eric: Alors, que fait SMITH pour lutter contre cela?

Jess: Ils ont divisé le document d'entrée en plusieurs blocs contenant une ou plusieurs phrases en utilisant ce qu'ils appellent une méthode de phrase gourmande. Ensuite, les transformateurs au niveau de la phrase apprennent les représentations contextuelles des jetons d'entrée dans chaque bloc de phrase. Donc, fondamentalement, ils décomposent le contenu le plus large en blocs, puis essaient de comprendre les relations entre les phrases de ces blocs. ils sont servis en ligne. Et le modèle hiérarchique capture les informations structurelles internes du document, telles que les limites des phrases. Et ces deux choses aident vraiment à la mémoire et à la compréhension de l'ensemble du document.

Et troisièmement, par rapport à l'application directe de Transformers à l'ensemble du document, il y a une sorte de hiérarchie à deux niveaux, qui comprend à la fois la phrase et le document -level Transformers, qui réduisent les problèmes de mémoire quadratique que nous avons mentionnés précédemment et la quantité de complexité de temps en changeant l'auto-attention complète sur l'ensemble du document en plusieurs auto-attentions locales dans chaque bloc de phrase.

Eric: Donc les transformateurs au niveau de la phrase capturent les interactions entre les jetons dans le bloc de phrase, puis les transformateurs au niveau du document examinent l'interaction globale entre les différents blocs de phrase à la recherche de dépendances à longue distance?

Jess: Exactement. Étant donné que l'attention est partagée entre deux modèles, elle peut couvrir plus de terrain rapidement et vous obtenez une compréhension plus approfondie du texte à plusieurs niveaux. Ainsi, comme BERT, SMITH adopte également le paradigme de pré-formation et de réglage fin non supervisé pour la formation des modèles. Ainsi, ils cachent ou masquent des mots et des blocs de phrases sélectionnés au hasard pendant la formation. Donc, si vous avez déjà vu de la poésie blackout, imaginez donner une poésie blackout informatique et lui dire de deviner le reste du poème.

Eric: On dirait que SMITH est assez impressionnant.

Jess: Oui. Et cela va avoir des impacts sur des choses comme la correspondance neuronale, les modèles d'auto-attention pour la modélisation de texte long, les modèles de transformateurs et BERT, mais pour du texte plus long. Les modèles d'auto-attention tels que Transformers et BERT montrent des performances prometteuses sur plusieurs tâches de traitement du langage naturel et de recherche d'informations. Il existe également un pré-apprentissage de modèle de langage non supervisé, donc si vous avez entendu parler d'ELMo, GPT, Word2Vec ou BERT, tous ces modèles peuvent être pré-entraînés en prédisant un mot ou une étendue de texte à l'aide d'autres mots dans la même phrase. Et cela montre comment cela peut être utilisé à plus grande échelle. en utilisant la méthode de remplissage de phrases gourmandes.  » width= »689″ height= »411″ srcset= »https://i2.wp.com/blogs.perficient.com/files/Figure-3-4.png?w=689&ssl=1 689w, https://i2.wp.com/blogs.perficient.com/files/Figure-3-4.png?resize=300%2C179&ssl=1 300w, https://i2.wp.com/blogs.perficient.com/files/Figure-3-4.png?resize=500%2C298&ssl=1 500w, https://i2.wp.com/blogs.perficient.com/files/Figure-3-4.png?resize=600%2C358&ssl=1 600w, https://i2.wp.com/blogs.perficient.com/files/Figure-3-4.png?resize=640%2C382&ssl=1 640w » sizes= »(max-width: 689px) 100vw, 689px » data-recalc-dims= »1″/>

Je ne vais pas entrer dans les détails techniques de tout cela, pas plus que je ne l’ai déjà fait. Mais tous ces éléments sont en quelque sorte liés les uns aux autres et indiquent certaines choses sur l'avenir de la recherche.

Eric: Donc, Google n'utilise pas actuellement SMITH dans l'algorithme, n'est-ce pas?

 Danny Tweets de Sullivan sur la non-inclusion de Smith dans la recherche Algo

Jess: Non. Mais je pense que regarder SMITH peut nous donner un aperçu de la façon dont la recherche d'informations, en particulier dans la recherche Google, va évoluer à l'avenir. Parlons donc de certains concepts de cet article sur lesquels les spécialistes du marketing avertis en référencement devraient se concentrer.

Eric: De toute évidence, cet article montre que Google se concentre continuellement sur le traitement du langage naturel, en particulier pour la recherche d'informations, et un accent supplémentaire sur les choses, les entités et les concepts.

Jess: Et, oui, avec ça, je pense que ça vaut la peine pour les référenceurs techniques et les personnes intéressées par l'apprentissage automatique de lire et d'essayer de comprendre les modèles d'attention. L'attention imite simplement l'attention humaine. Il améliore des parties importantes des données d'entrée et fait disparaître le reste. Et vous pouvez en voir les effets dans toutes sortes de modèles d'apprentissage automatique, de la vision par ordinateur à la génération d'images, en passant par la génération de texte et la traduction. Les transformateurs sont un autre concept d'apprentissage automatique sur lequel les référenceurs techniques investis devraient se pencher. Ils ressemblent aux réseaux neuronaux récurrents et sont utilisés dans SMITH, BERT et GPT. Et nous avons tous vu à quel point ces modèles de langage peuvent être puissants.

Eric: Et je pense qu'au-delà de l'aspect machine de la PNL, Google a continué à investir dans la compréhension du langage naturel et la façon dont les gens parlent et interrogent.

Jess: Oui, c'est un autre signe que nous allons non seulement au-delà de la simple correspondance de texte, mais que nous faisons en sorte que les machines utilisent l'apprentissage automatique de manière plus rapide, meilleure et plus éloquente.

Eric: Oui, l'avenir de la recherche est de s'assurer votre site est de premier ordre, votre contenu est bon ou excellent, et que vous fournissez ce que vos chercheurs recherchent, peu importe comment ils rédigent leur requête.

Ne manquez pas un seul épisode de Voici pourquoi . Cliquez sur le bouton d'inscription ci-dessous pour être averti par e-mail chaque fois qu'une nouvelle vidéo est publiée.

Abonnez-vous à Here's Why

Voir toutes nos vidéos Here's Why | Abonnez-vous à notre chaîne YouTube

À propos de l'auteur

Eric Enge dirige la pratique du marketing numérique pour Perficient. Il conçoit des études et produit des recherches liées à l'industrie pour aider à prouver, démystifier ou faire évoluer les hypothèses sur les pratiques de marketing numérique et leur valeur. Eric est écrivain, blogueur, chercheur, enseignant, conférencier et panéliste lors de grandes conférences de l'industrie. En partenariat avec plusieurs autres experts, Eric a été l'auteur principal de The Art of SEO.

Plus de cet auteur




Source link