连续动作的DQN

第一种方法误差比较大,第二个方法运算量比较大,因为每次推断都相当于要重新解方程,第三种方法是比较好的