Fermer

mars 1, 2021

La plupart des annonces que vous voyez sont choisies par un modèle d'apprentissage par renforcement. Voici comment cela fonctionne


Chaque jour, les agences de publicité numérique diffusent des milliards d'annonces sur les sites Web d'actualités, les moteurs de recherche, les réseaux sociaux, les sites Web de streaming vidéo et d'autres plates-formes. Et ils veulent tous répondre à la même question: laquelle des nombreuses publicités qu'ils ont dans leur catalogue est plus susceptible d'attirer un certain spectateur? Trouver la bonne réponse à cette question peut avoir un impact énorme sur les revenus lorsque vous traitez avec des centaines de sites Web, des milliers d'annonces et des millions de visiteurs.

Heureusement (pour les agences de publicité, au moins), [19659003] l'apprentissage par renforcement la branche de l'intelligence artificielle devenue réputée pour la maîtrise des jeux de société et vidéo apporte une solution. Les modèles d'apprentissage par renforcement cherchent à maximiser les récompenses. Dans le cas des publicités en ligne, le modèle RL essaiera de trouver l'annonce sur laquelle les utilisateurs sont plus susceptibles de cliquer.

L'industrie de la publicité numérique génère des centaines de milliards de dollars chaque année et fournit une étude de cas intéressante sur les pouvoirs de apprentissage par renforcement.

Tests A / B / n naïfs

Pour mieux comprendre comment l'apprentissage par renforcement optimise les publicités, envisagez un scénario très simple: vous êtes propriétaire d'un site Web d'actualités. Pour payer les frais d'hébergement et de personnel, vous avez conclu un contrat avec une entreprise pour diffuser ses annonces sur votre site Web. L'entreprise vous a fourni cinq annonces différentes et vous versera un dollar chaque fois qu'un visiteur cliquera sur l'une des annonces.

Votre premier objectif est de trouver l'annonce qui génère le plus de clics. Dans le jargon publicitaire, vous voudrez maximiser votre taux de clics (CTR). Le CTR est le ratio de clics sur le nombre d'annonces affichées, également appelé impressions. Par exemple, si 1 000 impressions d'annonces vous rapportent trois clics, votre CTR sera de 3/1 000 = 0,003 ou 0,3 % .

Avant de résoudre le problème de l'apprentissage par renforcement, parlons des tests A / B, la technique standard pour comparer les performances de deux solutions concurrentes (A et B) telles que différentes mises en page de pages Web, recommandations de produits ou publicités. Lorsque vous avez affaire à plus de deux alternatives, cela s'appelle le test A / B / n.

[Lire: Comment créer un gadget compatible avec les animaux? Nous avons demandé aux experts et aux propriétaires d'animaux ]

Dans les tests A / B / n, les sujets de l'expérience sont répartis au hasard en groupes séparés et chacun reçoit l'une des solutions disponibles. Dans notre cas, cela signifie que nous afficherons au hasard l'une des cinq annonces à chaque nouveau visiteur de notre site Web et évaluerons les résultats.

Supposons que nous effectuions notre test A / B / n pour 100 000 itérations, soit environ 20 000 impressions par annonce. Voici le taux de clics sur impression de nos annonces:

Annonce 1: 80/20 000 = 0,40% CTR

Annonce 2: 70/20 000 = 0,35% CTR

Annonce 3: 90/20 000 = 0,45 % CTR

Annonce 4: 62/20 000 = CTR de 0,31%

Annonce 5: 50/20 000 = CTR de 0,25%

Nos 100 000 impressions d'annonces ont généré des revenus de 352 USD avec un CTR moyen de 0,35%. Plus important encore, nous avons découvert que l'annonce numéro 3 fonctionne mieux que les autres, et nous continuerons à l'utiliser pour le reste de nos téléspectateurs. Avec l'annonce la moins performante (annonce numéro 2), nos revenus auraient été de 250 USD. Avec l'annonce la plus performante (annonce numéro 3), nos revenus auraient été de 450 USD. Ainsi, notre test A / B / n nous a fourni la moyenne des revenus minimum et maximum et nous a permis d'obtenir la connaissance très précieuse des taux de CTR que nous recherchions.

Les publicités numériques ont des taux de conversion très faibles. Dans notre exemple, il existe une légère différence de 0,2% entre nos annonces les plus performantes et les moins performantes. Mais cette différence peut avoir un impact significatif sur l'échelle. À 1 000 impressions, l'annonce numéro 3 générera 2 $ supplémentaires par rapport à l'annonce numéro 5. À un million d'impressions, cette différence deviendra 2 000 $. Lorsque vous diffusez des milliards d'annonces, un subtil 0,2 % peut avoir un impact énorme sur les revenus.

Par conséquent, il est très important de trouver ces différences subtiles dans l'optimisation des annonces. Le problème avec les tests A / B / n est qu'il n'est pas très efficace pour trouver ces différences. Il traite toutes les annonces de la même manière et vous devez exécuter chaque annonce des dizaines de milliers de fois jusqu'à ce que vous découvriez leurs différences à un niveau de confiance fiable. Cela peut entraîner une perte de revenus, en particulier lorsque vous disposez d'un catalogue d'annonces plus volumineux.

Un autre problème avec les tests A / B / n classiques est qu'ils sont statiques. Une fois que vous avez trouvé l'annonce optimale, vous devrez vous y tenir. Si l'environnement change en raison d'un nouveau facteur (saisonnalité, tendances des actualités, etc.) et fait que l'une des autres publicités a un CTR potentiellement plus élevé, vous ne le saurez que si vous exécutez le test A / B / n partout.

Et si nous pouvions changer les tests A / B / n pour les rendre plus efficaces et dynamiques?

C'est là que l'apprentissage par renforcement entre en jeu. Un agent d'apprentissage par renforcement commence par ne rien savoir des actions, récompenses et pénalités de son environnement. L'agent doit trouver un moyen de maximiser ses récompenses.

Dans notre cas, les actions de l'agent RL sont l'une des cinq annonces à afficher. L'agent RL recevra un point de récompense chaque fois qu'un utilisateur clique sur une annonce. Il doit trouver un moyen de maximiser les clics sur les annonces.

Le bandit multi-armé

 bandit multi-armé "width =" 696 "height =" 392 "data-attachment-id =" 9635 "data-permalink =" https://bdtechtalks.com/2021/02/22/reinforcement-learning-ad-optimization/multi-armed-bandit/ "data-orig-file =" https://i2.wp.com/bdtechtalks.com/ wp-content / uploads / 2021/02 / multi-armé-bandit.jpg? fit = 2560% 2C1440 & ssl = 1 "data-orig-size =" 2560,1440 "data-comments-open =" 1 "data-image- meta = "{" aperture ":" 0 "," credit ":" "," camera ":" "," caption ":" "," created_timestamp ":" 0 "," copyright ":" "," focal_length ":" 0 "," iso ":" 0 "," shutter_speed ":" 0 "," title ":" "," orientation ":" 0 "}" data-image-title = "bandit multi-armé" data-image-description = "" data-medium-file = "https://i2.wp.com/bdtechtalks.com/wp-content/uploads/2021/02/multi-armed-bandit.jpg?fit=300 % 2C169 & ssl = 1 "data-large-file =" https://i2.wp.com/bdtechtalks.com/wp-content/uploads/2021/02/multi-armed-bandit.jpg?fit=696%2C392&ssl= 1 "data-recalc-dims =" 1 "data-lazy-shared =" 1 "data-src =" https: // i2 .wp.com / bdtechtalks.com / wp-content / uploads / 2021/02 / multi-armé-bandit.jpg? resize = 696% 2C392 & ssl = 1 "data-lazy =" true "data-srcset =" https: / /i2.wp.com/bdtechtalks.com/wp-content/uploads/2021/02/multi-armed-bandit.jpg?resize=1024%2C576&ssl=1 1024w, https://i2.wp.com/bdtechtalks. com / wp-content / uploads / 2021/02 / multi-armé-bandit.jpg? resize = 300% 2C169 & ssl = 1 300w, https://i2.wp.com/bdtechtalks.com/wp-content/uploads/2021 /02/multi-armed-bandit.jpg?resize=768%2C432&ssl=1 768w, https://i2.wp.com/bdtechtalks.com/wp-content/uploads/2021/02/multi-armed-bandit. jpg? resize = 1536% 2C864 & ssl = 1 1536w, https://i2.wp.com/bdtechtalks.com/wp-content/uploads/2021/02/multi-armed-bandit.jpg?resize=2048%2C1152&ssl=1 2048w, https://i2.wp.com/bdtechtalks.com/wp-content/uploads/2021/02/multi-armed-bandit.jpg?resize=696%2C392&ssl=1 696w, https: //i2.wp .com / bdtechtalks.com / wp-content / uploads / 2021/02 / multi-armé-bandit.jpg? resize = 1068% 2C601 & ssl = 1 1068w, https://i2.wp.com/bdtechtalks.com/wp- contenu / téléchargements / 2021/02 / multi-armé -bandit.jpg? resize = 747% 2C420 & ssl = 1 747w, https://i2.wp.com/bdtechtalks.com/wp-content/uploads/2021/02/multi-armed-bandit.jpg?resize=1920% 2C1080 & ssl = 1 1920w, https://i2.wp.com/bdtechtalks.com/wp-content/uploads/2021/02/multi-armed-bandit.jpg?w=1392&ssl=1 1392w "/> </a><figcaption><a href=