强化学习：推荐场景落地

阅读量，评论量

推荐场景与RL上四要素的对应关系如下：

对应关系

基于DL的RS通过用户反馈来学习用户兴趣并更新模型，而基于DRL的RS则接收环境提供的奖励来更新模型；这两者有本质区别？？？好像没有。。。

DRL的任务是利用深度学习来逼近强化学习的值函数/动作策略，并解决高维马尔可夫决策过程（MDPs）。

model-based：学转移函数+值函数；

model-free：学值函数或动作策略；