Hans's notebook

连续动作的DQN

连续动作的DQN

第一种方法误差比较大，第二个方法运算量比较大，因为每次推断都相当于要重新解方程，第三种方法是比较好的