论文介绍
本篇论文是2018年Google发表的论文,应该是应用在YouTube的召回层。看其他人分享说是最近两年单次上线最高收益
论文链接:https://arxiv.org/pdf/1812.02353.pdf
论文背景
现在推荐系统的item在百万级别,user在十亿级别。在任意时间二者间产生的一个行为都是独一无二的。
这导致用户状态空间非常复杂。日志记录的隐式反馈很方便用于学习。
但是日志反馈的问题是:
- 没被系统推出来的没有日志反馈,会有偏差
论文主要做了一下几个事:
- 本篇论文提出了一种 Top-K 算法可以消除此偏差。此算法基于策略梯度,即REINFORCE(此算法给出了参考论文,笔者还未阅读)
- 使用了一种非策略方案校准偏差