Actor critic

AC算法与Q无关,与V有关

小tip:参数共用

policy gradient和AC算法的区别(其实没啥区别,相比于PG算法,AC算法就是加了一个网络来估计累计回报)