Top-K Off-Policy Correction for a REINFORCE Recommender System

发表于 2019-12-23 | 分类于强化学习 | |

论文介绍

本篇论文是2018年Google发表的论文，应该是应用在YouTube的召回层。看其他人分享说是最近两年单次上线最高收益

论文链接：https://arxiv.org/pdf/1812.02353.pdf

论文背景

现在推荐系统的item在百万级别，user在十亿级别。在任意时间二者间产生的一个行为都是独一无二的。

这导致用户状态空间非常复杂。日志记录的隐式反馈很方便用于学习。

但是日志反馈的问题是：

没被系统推出来的没有日志反馈，会有偏差

论文主要做了一下几个事：

本篇论文提出了一种 Top-K 算法可以消除此偏差。此算法基于策略梯度，即REINFORCE(此算法给出了参考论文，笔者还未阅读)
使用了一种非策略方案校准偏差

分享到：收藏夹复制网址邮件微信 QQ空间腾讯微博豆瓣一键分享更多

yudake

如果能实现，我想带你去看绚丽的山岚，去看秀美的溪谷，这份心情该如何去形容呢 --夏目友人帐

GitHub E-Mail

1. 论文介绍
2. 论文背景