mars 1, 2021

La plupart des annonces que vous voyez sont choisies par un modèle d'apprentissage par renforcement. Voici comment cela fonctionne

Chaque jour, les agences de publicité numérique diffusent des milliards d'annonces sur les sites Web d'actualités, les moteurs de recherche, les réseaux sociaux, les sites Web de streaming vidéo et d'autres plates-formes. Et ils veulent tous répondre à la même question: laquelle des nombreuses publicités qu'ils ont dans leur catalogue est plus susceptible d'attirer un certain spectateur? Trouver la bonne réponse à cette question peut avoir un impact énorme sur les revenus lorsque vous traitez avec des centaines de sites Web, des milliers d'annonces et des millions de visiteurs.

Heureusement (pour les agences de publicité, au moins), [19659003] l'apprentissage par renforcement la branche de l'intelligence artificielle devenue réputée pour la maîtrise des jeux de société et vidéo apporte une solution. Les modèles d'apprentissage par renforcement cherchent à maximiser les récompenses. Dans le cas des publicités en ligne, le modèle RL essaiera de trouver l'annonce sur laquelle les utilisateurs sont plus susceptibles de cliquer.

L'industrie de la publicité numérique génère des centaines de milliards de dollars chaque année et fournit une étude de cas intéressante sur les pouvoirs de apprentissage par renforcement.

Tests A / B / n naïfs

Pour mieux comprendre comment l'apprentissage par renforcement optimise les publicités, envisagez un scénario très simple: vous êtes propriétaire d'un site Web d'actualités. Pour payer les frais d'hébergement et de personnel, vous avez conclu un contrat avec une entreprise pour diffuser ses annonces sur votre site Web. L'entreprise vous a fourni cinq annonces différentes et vous versera un dollar chaque fois qu'un visiteur cliquera sur l'une des annonces.

Votre premier objectif est de trouver l'annonce qui génère le plus de clics. Dans le jargon publicitaire, vous voudrez maximiser votre taux de clics (CTR). Le CTR est le ratio de clics sur le nombre d'annonces affichées, également appelé impressions. Par exemple, si 1 000 impressions d'annonces vous rapportent trois clics, votre CTR sera de 3/1 000 = 0,003 ou 0,3 % .

Avant de résoudre le problème de l'apprentissage par renforcement, parlons des tests A / B, la technique standard pour comparer les performances de deux solutions concurrentes (A et B) telles que différentes mises en page de pages Web, recommandations de produits ou publicités. Lorsque vous avez affaire à plus de deux alternatives, cela s'appelle le test A / B / n.

[Lire: Comment créer un gadget compatible avec les animaux? Nous avons demandé aux experts et aux propriétaires d'animaux ]

Dans les tests A / B / n, les sujets de l'expérience sont répartis au hasard en groupes séparés et chacun reçoit l'une des solutions disponibles. Dans notre cas, cela signifie que nous afficherons au hasard l'une des cinq annonces à chaque nouveau visiteur de notre site Web et évaluerons les résultats.

Supposons que nous effectuions notre test A / B / n pour 100 000 itérations, soit environ 20 000 impressions par annonce. Voici le taux de clics sur impression de nos annonces:

Annonce 1: 80/20 000 = 0,40% CTR