强化学习:推荐场景落地

阅读量 ,评论量

推荐场景与RL上四要素的对应关系如下:

image-20251218154121396

基于DL的RS通过用户反馈来学习用户兴趣并更新模型,而基于DRL的RS则接收环境提供的奖励来更新模型;这两者有本质区别???好像没有。。。

DRL的任务是利用深度学习来逼近强化学习的值函数/动作策略,并解决高维马尔可夫决策过程(MDPs)。

model-based:学转移函数+值函数;

model-free:学值函数 或 动作策略;