从另一个角度看监督学习的强化学习

1、监督学习是学习一个向量(可以代表状态、图像、文字)s到一个向量a(可以代表动作a,类别,词性)的一个映射,loss是根据前向传播结果与标签做平方差得到的,目的是让loss最小

2、强化学习是学习一个向量s到一个向量a的映射(也就是策略),目的是让cost最大(也就是价值函数)