推荐场景与RL上四要素的对应关系如下:
基于DL的RS通过用户反馈来学习用户兴趣并更新模型,而基于DRL的RS则接收环境提供的奖励来更新模型;这两者有本质区别???好像没有。。。
DRL的任务是利用深度学习来逼近强化学习的值函数/动作策略,并解决高维马尔可夫决策过程(MDPs)。
model-based:学转移函数+值函数;
model-free:学值函数 或 动作策略;