Vectornet论文

  • 首先将车道线、人行横道、交通灯、agent都编码成向量,从而构成一个子图,子图中每个节点都是一个小向量段,每个节点的向量的长度为9维,也就是说agent0有3×9的特征矩阵和2×3的邻接矩阵,agent1有3×9的特征矩阵和2×3的邻接矩阵,三个polyline分别有3×9的特征矩阵和2×3的邻接矩阵,crosswork有4×9的特征矩阵和2×8的邻接矩阵。这样组成了六个subgraph
  • 将每一个subgraph都做一次特征抽取,比如agent有6×9的特征矩阵(六个轨迹点),先做一次encoder(全连接)、然后对encoder后的结果做一个max_pooling,然后concat,得到6× 100的特征矩阵。然后

  • 然后对抽取特征后的subgraph做一次max pooling(6×1),得到一个1×100的特征向量(也就是说,每一个子图最后都会被映射到1×100,不管这个子图中之前有多少个节点)

  • 对每一个子图做attention(跟图没啥关系,就是为了写起来好看点),最后每一个子图的特征向量可能变为1×120,如果v的维度是120的话,具体取决于attention中v的维度