从另一个角度看监督学习的强化学习

1、监督学习是学习一个向量（可以代表状态、图像、文字）s到一个向量a（可以代表动作a，类别，词性）的一个映射，loss是根据前向传播结果与标签做平方差得到的，目的是让loss最小

2、强化学习是学习一个向量s到一个向量a的映射（也就是策略），目的是让cost最大（也就是价值函数）