Top-K Off-Policy Correction for a REINFORCE Recommender System

论文介绍

本篇论文是2018年Google发表的论文,应该是应用在YouTube的召回层。看其他人分享说是最近两年单次上线最高收益

论文链接:https://arxiv.org/pdf/1812.02353.pdf

论文背景

现在推荐系统的item在百万级别,user在十亿级别。在任意时间二者间产生的一个行为都是独一无二的。

这导致用户状态空间非常复杂。日志记录的隐式反馈很方便用于学习。

但是日志反馈的问题是:

  • 没被系统推出来的没有日志反馈,会有偏差

论文主要做了一下几个事:

  • 本篇论文提出了一种 Top-K 算法可以消除此偏差。此算法基于策略梯度,即REINFORCE(此算法给出了参考论文,笔者还未阅读)
  • 使用了一种非策略方案校准偏差