导读:强化学习入门,先依次学习了q-learning,DQN,Dueling DQN;
近日在知乎浏览,发现openai更偏爱policy gradient,知乎大佬讲解说,是因为policy gradient相比dqn所需数据更少。使用较少训练数据而得到较好的结果,恰恰能减少线上成本,因此希望能理清楚为什么policy gradient能使用更少的训练数据?其与dqn的区别在哪里。
与DQN的区别
我们知道,在DQN中,我们将state经过nn网络产生Q值,根据Q值大小来选取action,而policy gradient则是将state经过nn网络直接产生采取每个action的概率,直接选取action。可是该如何判断