基于决策规划模型的车辆轨迹预测学习方法

驾驶哥

2021年6月24日 10:21

来源 | 同济智能汽车研究所

知圈 | 进“电子电气群”请加微13636581676,备注架构

编者按： 目前车辆轨迹预测任务的主要研究方向为降低其不确定性和泛化其适用场景。精确的预测轨迹输出对保证无人驾驶车辆行车效率和行车安全至关重要，而将训练场景下的预测模型推广应用到众多拥有个性化差异的真实场景则是预测算法商业落地部署的必经之路。本文先通过人工数学决策规划模型生成参考轨迹再利用机器学习方法训练轨迹判别器，在提高轨迹可行性和稳定性的方向上进行了具有一定创新性的实验，最终使输出的预测轨迹精度进一步提高。文章数学模型的设计思想和建模逻辑具有不错的参考学习价值。

摘要： 预测道路车辆的未来轨迹对自动驾驶至关重要。本文提出一种名为PRIME的新型轨迹预测框架，其本质为基于规划模型的预测。不同于近期利用神经网络建模场景信息并生成无约束的轨迹的预测工作，PRIME使用一个具有显示约束的基于数学模型的轨迹生成器生成精确的多模态预测轨迹然后通过基于学习的判别器对多模态轨迹进行选择，最终输出精确可行的预测轨迹。我们在大型的Argoverse轨迹预测数据集上进行了实验。在不完美的运动目标跟踪条件下，我们的PRIME框架在预测准确性、可行性和鲁棒性方面均优于目前最先进的方法。因此，我们在Argoverse的排行榜上获得了第一名。

关键词： 轨迹预测，决策规划，深度学习

引言

预测动态智能体的未来状态对于交互环境中的机器人动作规划至关重要。在自动驾驶系统结构中，预测起到桥接模块的作用，因为未来状态是根据接受上游目标检测与跟踪的感知信息来预测，而预测的信息则是便于下游决策模块进行轨迹规划。因此，我们特别感兴趣的是为道路车辆进行准确、合理的轨迹预测，这对自动驾驶汽车安全、高效和舒适的动作规划至关重要。

由于自动驾驶系统对该模块有多种要求，因此轨迹预测具有一定的挑战性。众所周知的困难在于建模不同交通参与者之间在道路环境中的交互作用和推理多模态的未来轨迹。传统的预测方法[16,18,44,21]通过人工定义规则或嵌入物理和环境特征的数学模型来进行运动预测，这显然不能够建模复杂场景中的交互智能体。近年来，基于学习的方法[1,20,2]推动了这一领域的前沿进展。基于学习的框架通过深度神经网络融合场景上下文信息来生成未来轨迹显著提高了预测精度，并在最近的自动驾驶轨迹预测比赛中占据统治地位[3,7]。

虽然预测精度得到了稳步的提高，但却很少有人关注预测轨迹的可行性和鲁棒性。事实上，大多数交通参与者是在其固有的运动学约束(如车辆的非完整运动约束)下进行操作的，同时又遵守道路结构(如车道连通性、静态障碍)和语义信息(如交通灯、速度限制)。所有这些运动学和环境约束明确地规范了轨迹空间。然而，现有的未来预测方法大多将交通参与者建模为点，在不受约束的情况下生成未来位置序列。这种无约束的预测可能不符合运动学或环境特征，从而在预测的未来状态中产生大量的不确定性。因此,下游规划模块不可避免地要承受一些额外的负担，甚至是冻结车辆问题[37]。此外，最近的研究通常通过网络回归来生成轨迹预测，这对长期跟踪结果有高度依赖。但在某些密集驾驶场景中，目标瞬间被遮挡或突然出现在感知范围内，容易造成跟踪结果不连续或历史信息积累不够，在这种不完美的跟踪情况下，预测精度会降低。

为了克服这些挑战，我们提出了一种新的预测体系结构，称为PRIME。其关键思想是利用基于数学模型的运动规划器作为预测生成器，对目标的可行未来轨迹进行采样，同时利用深度神经网络作为预测评估器，通过评分来选择未来轨迹。新的结构有助于精确、可行、稳定的轨迹预测。我们的贡献总结如下

我们提出了一种新的车辆轨迹预测框架——PRIME。PRIME通过利用基于数学模型的生成器在显式约束下生成未来轨迹，保证了轨迹预测的可行性，同时通过使用基于学习的判别器来选择未来轨迹，它能够实现精确的多模态预测。

我们的框架在Argoverse运动预测排行榜上综合排名第一，在丢失率和概率性最终位移误差两个项目中实现了最好的表现成绩。值得注意的是，据我们所知，PRIME是唯一一种使用可解释的决策规划器来产生最终预测轨迹的方法。

我们的PRIME在在不完美的跟踪下，除了预测精度外，预测轨迹的可行性和鲁棒性方面也均优于当前最先进的方法。这些优点有助于自动驾驶汽车的下游更有效地进行决策规划。

相关工作

本节首先回顾了自动驾驶中典型的运动预测和规划方法，重点分析了它们之间的联系和区别。然后，我们将介绍建模地图环境信息与交通参与者的交互关系和生成多模态预测的最新进展，这是预测任务中的基本问题。

在自动驾驶的过程中，预测和规划是紧密交织的[12,39,19,34]。规划主要用于生成运动学可行和环境兼容的轨迹，同时还会考虑更多方面，如舒适性、安全性、能源消耗和目的地的进展，为自动驾驶汽车选择最佳路线计划。通过从感知到的历史信息推断周围车辆的未来轨迹，预测有助于最佳计划的选择。它们主要关注点的不同使得相应的主流框架产生了分歧。在规划时，首选基于数学模型的方法[27,40,24,13]，主要由于它们能在显式约束下计算安全轨迹的可解释性和可靠性。相比之下，目前预测领域的主流是基于学习的[25]方法利用数据驱动对多智能体隐式交互进行建模。

一些基于学习的预测方法包含了目标导向的思想，从计划中推断可能的目标，然后使用逆强化学习[43,29]或深度神经网络[23,41]产生目标条件轨迹。此外，最近的一些著作引入了新的规划-预测耦合框架，通过考虑自车的意图[31]和运动规划进行周围车辆轨迹的条件预测[35,33]。由于强调提高点级预测精度，所有这些基于学习的工作都依赖于神经网络来处理复杂的交通环境，但不能确保在轨迹生成上施加真实的物理约束。也有文献将两轴车辆运动学模型[28]嵌入输出层，以保证运动轨迹可行，但环境可行性仍未得到保证。

本研究受流行的基于采样的车辆运动规划范例[39,40]的启发，该范例对受明确数学模型约束的多条轨迹进行采样，然后根据预定义的评分函数选择最佳轨迹。因此我们以预测目标实时状态和道路环境信息为信息输入，采用基于数学模型的运动规划器来生成预测轨迹集。然后，将基于学习的网络任务简化为地图环境信息与交通参与者的交互关系建模，并依此对轨迹集的可行轨迹进行排序。通过这种方式，我们创新性的两阶段架构充分利用了基于数学模型的规划和基于学习的预测，在处理复杂交互时兼顾满足交通环境和运动学约束。

建模地图环境信息与交通参与者的交互关系对于预测是至关重要的。Benz[44]的经典工作是在地图信息约束下预测驾驶行为。首先将每个目标与其相应的可达路径关联起来，然后根据目标的状态和地图拓扑信息直接生成跟踪预测轨迹。然而，它不能捕捉广泛存在于交互驱动场景中的多智能体交互。为了更好地从道路环境和交通参与者中获取信息，许多基于学习的工作[8,11,26]通过把交通实体表现为不同的颜色或强度，将原始输入数据转换为栅格化图像，使其能够利用卷积神经网络进行编码。最近的研究[14,22,41]提出使用向量化的场景上下文作为节点来构建图，然后使用图神经网络进行处理。向量化表示更明确地利用了高清地图信息，提高了预测精度。与这些方法不同的是，我们通过一个分层结构来解决地图环境信息与交通参与者的交互关系建模，该结构融合了[44]中的车道关联思想，同时扩展到学习全局场景上下文信息。具体来说，我们的预测生成器在局部以规划的方式在可到达的路径上为目标车辆生成轨迹集。接下来，我们的预测轨迹判别器通过对所有车道的聚合学习，获得对场景上下文的全局理解条件轨迹和地图特征。

生成多模态轨迹是轨迹预测的另一个核心挑战。为了解释内在的多模态分布，一系列工作建立在随机模型上，如条件变分自编码器(CVAEs)[20,30,17,36,5]或生成式对抗网络(GANs)[15,32,42]来绘制轨迹样本。尽管它们的性能极具竞争力，但在推断时隐性变量采样不可控的缺点使它们无法部署在对安全要求极高的驾驶场景中。确定性方法大多基于多模态轨迹回归[10,4,8,22]。为了缓解预测学习中的模式坍塌，最近提出的框架将任务分解为锚定轨迹[6]或目标条件轨迹[41]不同类别，然后进行轨迹偏移回归。然而，神经网络回归轨迹并没有可行性保证。CoverNet[26]试图通过将多模态预测定义为预先构造的轨迹集上的纯粹分类来满足特定的物理需求，但其预测可能会违背交通参与者的实时状态或交通环境限制。通过利用基于模型的轨迹规划器作为预测轨迹生成器，我们的方法在以下几个关键方面显示出优越性。首先，通过对实时情况施加环境约束和运动约束来保证轨迹的可行性;其次，我们的模型通过生成足够覆盖可达路径的轨迹集来提供多模态分布。第三，我们不像大多数方法那样输出离散的未来位置，该模型可以生成包含位置、航向、速度、加速度等连续信息的高保真轨迹。最后，可以根据目标的当前状态生成轨迹，减轻了对长期跟踪结果的高度依赖。

概述

问题公式化。我们假设自动驾驶汽车已经配备目标检测与跟踪模块能够提供道路交通参与者基于决策规划模型的车辆轨迹预测学习方法的图4

的观测状态

，并可获取高精地图信息基于决策规划模型的车辆轨迹预测学习方法的图6

。设

表示交通参与者

在第

帧时刻的状态，包括位置、航向、速度、横摆角速度和交通参与者类型，基于决策规划模型的车辆轨迹预测学习方法的图10

表示整个观测周期

的离散状态序列。将任意一个交通参与者作为预测目标，可以将其表示为基于决策规划模型的车辆轨迹预测学习方法的图12

，周围其它交通参与者表示成基于决策规划模型的车辆轨迹预测学习方法的图13

作为区分。然后相应地将它们的状态序列表示为基于决策规划模型的车辆轨迹预测学习方法的图14

和

。因此，我们有

和

。我们框架的目标是预测未来的多模态轨迹基于决策规划模型的车辆轨迹预测学习方法的图18

以及其相应的轨迹概率基于决策规划模型的车辆轨迹预测学习方法的图19

，其中

表示预测目标

在预测边界范围内的一条拥有连续状态信息的预测轨迹，基于决策规划模型的车辆轨迹预测学习方法的图22

为模态数。此外，还需保证每条轨迹基于决策规划模型的车辆轨迹预测学习方法的图23

都在现行的约束条件

下是可行的，既包括环境约束基于决策规划模型的车辆轨迹预测学习方法的图25

和预测目标的运动学约束基于决策规划模型的车辆轨迹预测学习方法的图26

。

我们的框架。我们通过引入一个由基于数学模型的轨迹生成器基于决策规划模型的车辆轨迹预测学习方法的图27

和基于学习方法的评估器基于决策规划模型的车辆轨迹预测学习方法的图28

组成的两级架构来解决轨迹预测问题。示意图如图1所示。具体来说，生成器基于决策规划模型的车辆轨迹预测学习方法的图29

的任务是为预测目标生成实时的轨迹空间基于决策规划模型的车辆轨迹预测学习方法的图30

，该空间近似有有限个数的可行轨迹。这一部分开始时从地图信息基于决策规划模型的车辆轨迹预测学习方法的图31

提供给轨迹生成器的参考路径中搜索一组可达路径基于决策规划模型的车辆轨迹预测学习方法的图32

。然后利用经典的基于采样的路径规划器在基于决策规划模型的车辆轨迹预测学习方法的图33

中的显示条件约束下生成轨迹样本，从而得到一组关于预测目标生成的可行的未来轨迹基于决策规划模型的车辆轨迹预测学习方法的图34

，其中

表示根据可达路径

生成的第

条可行轨迹，轨迹总数基于决策规划模型的车辆轨迹预测学习方法的图38

。

图1 PRIME有两个阶段用于交通场景下的轨迹预测:基于模型的生成器(左)，它对目标的可行未来轨迹进行采样通过获取它的实时状态和地图信息。同时明确地施加运动学和环境约束以保证轨迹的可行性。以学习为基础的评估器(右)接收可行轨迹，所有观测到的轨迹对所有交通参与者之间的隐式交互关系进行建模，并选择最终的可行轨迹集作为预测结果。

简而言之，

的作用是专门用来保证生成轨迹可行性，但其忽略了与周围交通参与者基于决策规划模型的车辆轨迹预测学习方法的图47

的交互关系。但对判别器基于决策规划模型的车辆轨迹预测学习方法的图48

来说，它负责建模隐式多智能体之间的交互关系，并据此从基于决策规划模型的车辆轨迹预测学习方法的图49

中选择最可能的未来轨迹基于决策规划模型的车辆轨迹预测学习方法的图50

。需要注意的是，可达路径基于决策规划模型的车辆轨迹预测学习方法的图51

，周围交通参与者

和可行轨迹

的数量都随着的实时状态基于决策规划模型的车辆轨迹预测学习方法的图54

而变化。因此，我们通过使用方便处理动态数字的注意机制的深度神经网络来实现判别器基于决策规划模型的车辆轨迹预测学习方法的图55

的训练。值得注意的是，判别器基于决策规划模型的车辆轨迹预测学习方法的图56

的任务只是对

中的可行轨迹进行评分，而不需要像大多数基于学习的框架那样进行回归。下面两个部分详细描述了基于决策规划模型的车辆轨迹预测学习方法的图58

和

。

基于模型的轨迹生成器

路径搜索：

与可控自车的运动规划可以获知参考路径不同的是，轨迹预测无法获取不可控他车的未来路径。因此我们在轨迹基于决策规划模型的车辆轨迹预测学习方法的图61

生成之前进行路径

搜索，以便于每一个预测目标可以用一组潜在的路径基于决策规划模型的车辆轨迹预测学习方法的图63

联系到一起。此外，预测的时间范围相对较短(少于5秒)，这使得搜索任何道路上车辆的所有潜在路径成为可能。

轨迹生成：

给定

中的潜在路径作为动态参考，我们选择以规划的方式生成未来的轨迹。在驾驶领域，运动规划通常意味着为自动驾驶车辆寻找连接当前状态和目标状态的最优轨迹，这与预测未知意图车辆的多模态轨迹本质上不同。尽管如此，基于模型的路径规划生成器也可以用于预测，因为它计算了大量的轨迹样本用于后续选择。

与可控自车的轨迹规划相比，对不可控目标预测时状态估计精度较低，且不需要细粒度轨迹。因此，在轨迹生成阶段，一些高阶状态变量简化为零，包括初始状态的基于决策规划模型的车辆轨迹预测学习方法的图65

，以及终止状态的

。对于垂向运动，我们在不约束基于决策规划模型的车辆轨迹预测学习方法的图67

的情况下在

范围内采样预测目标速度基于决策规划模型的车辆轨迹预测学习方法的图69

。常量

和

由交通参与者类型

和

地图信息中的速度限制给出，将采样后的纵向速度控制在合理范围内。每个纵向轨迹基于决策规划模型的车辆轨迹预测学习方法的图74

由一个四次多项式计算得出。

对于横向运动，我们采样目标的偏移基于决策规划模型的车辆轨迹预测学习方法的图76

，在

，

表示道路宽度。每条横向轨迹基于决策规划模型的车辆轨迹预测学习方法的图79

由一个四次多项式计算得出。

尽管为了给基于学习的判别器留有足够的选择空间，约束设置得相对保守，但我们的基于数学模型的生成器通过显式地施加约束有效地缩小了轨迹空间基于决策规划模型的车辆轨迹预测学习方法的图81

。这一优势将使我们的框架在复杂的场景中比其他数据驱动框架更加稳定。

基于学习的轨迹判别器

基于模型的轨迹生成器基于决策规划模型的车辆轨迹预测学习方法的图83

在第一阶段提供可行轨迹，然后基于学习的判别器基于决策规划模型的车辆轨迹预测学习方法的图84

的任务是提取交通参与者与地图信息之间隐式的交互关系，并选择可能的未来轨迹作为预测结果。在本节中，我们将介绍一种以空间信息的双重表示为特点的原创预测评估网络。我们的网络聚合来自场景环境的信息，包括观察到的状态序列基于决策规划模型的车辆轨迹预测学习方法的图85

，路径集

，和未来轨迹集

。整体框架如图2所示。

状态表示：

为了使我们的网络能够与大多数现存的轨迹预测数据集兼容，在本节中状态序列基于决策规划模型的车辆轨迹预测学习方法的图88

被简化为历史轨迹。在被喂入网络学习前，每一条历史轨迹基于决策规划模型的车辆轨迹预测学习方法的图89

和未来轨迹

都被离散成固定时间间隔的位置序列，每一条参考路径基于决策规划模型的车辆轨迹预测学习方法的图91

都被离散成固定距离

的路径点。因为纵向移动和横向偏移在基于决策规划模型的车辆轨迹预测学习方法的图93

中表明交通参与者相对于参考路径的位移，其可以以一个更加清晰的方式理解空间关系的方法。因此除了常用的笛卡尔坐标基于决策规划模型的车辆轨迹预测学习方法的图94

，我们提出了增加Frenet坐标基于决策规划模型的车辆轨迹预测学习方法的图95

来实现对轨迹信息的双重表达。至此，每条基于决策规划模型的车辆轨迹预测学习方法的图96

中未来轨迹的

全部信息都由轨迹生成器给出。

建模交互关系：

接下来，我们提出用几个子模块来捕获场景上下文中存在的隐式交互，包括静态环境和动态交通参与者之间的相互关系以及多个动态交通参与者之间的交互关系。我们利用[38]的注意机制，融合来自动态数量实体的空间和时间信息，利用最基本的尺度点积注意力机制构建四个模块，即路径到历史轨迹（P2T），路径到预测轨迹（P2F），交通参与者到交通参与者（A2A），预测轨迹到预测轨迹（F2F）。它们以相同的方式实现，使用线性层方式进行键映射、查询映射和值映射。总体工作流程如图2所示。

图2 主要框架概述。基于数学模型的生成器搜索能够到达的路径，然后利用地图信息采样出一组未来行驶可行的轨迹。基于学习的判别器首先将场景信息编码为，其中中有个路径点，中有条历史轨迹，中有条未来轨迹。交通参与者之间隐式的交互关系图通过随后的注意力模块进行学习获得，和分别将每一条参考轨迹的空间信息传播到历史路径和相关的未来轨迹，得到中的路径张量用来提取不同交通参与者之间的交互关系。因为在两个表达空间中都采用了基于Frenet坐标系的路径表达，所以，和能够处理每一条路径，同时将输出的所有未来轨迹融合以获取可行驶空间的全局理解。接下来，每一个可行轨迹都可以从中查询历史路径张量，从中查询交互关系张量，从中查询未来轨迹张量，然后将这些张量串联输送给全连接网络进行打分。最后，判别器将所有中的可靠轨迹根据分数进行排序，输出最终的预测轨迹集。

轨迹评分与学习：

利用获取的

来描述未来轨迹

的全部信息，我们用一个最大交叉熵模型来对所有可行轨迹基于决策规划模型的车辆轨迹预测学习方法的图129

进行打分:

其中

位于整个评估网络

的末尾，使用一个三层的多层感知器进行学习。每条轨迹基于决策规划模型的车辆轨迹预测学习方法的图133

的分数标签是由在预测域基于决策规划模型的车辆轨迹预测学习方法的图134

的真实轨迹

与未来预测轨迹

之间的平方差

累加所得：

其中

作为一个温度系数。最终，整个网络由评估分数和标签分数的交叉熵网络基于决策规划模型的车辆轨迹预测学习方法的图140

训练。

轨迹选择：

对于需要一组

条轨迹作为预测结果的推断阶段，我们采用[41]的轨迹选择方法去除近重复轨迹，该方法源自于目标检测常用的非极大值抑制(NMS)算法。该方法根据预测的得分，贪婪地从基于决策规划模型的车辆轨迹预测学习方法的图142

中挑选轨迹，同时根据距离度量基于决策规划模型的车辆轨迹预测学习方法的图143

在非常接近的轨迹之间将得分较低的轨迹排除。最后，按得分降序排序的基于决策规划模型的车辆轨迹预测学习方法的图144

条轨迹形成预测结果

，由相应的得分得出预测概率基于决策规划模型的车辆轨迹预测学习方法的图146

，例如

。

表1 本方法与ARGOVERSE基准和ARGOVERSE运动预测排行榜上排名靠前的记录进行比较。所有指标越低越好，丢失率(MR, K=6)是官方排名指标。

图5 Argoverse验证集上不同场景下的定性结果。高清地图由浅灰色部分描述。其他交通参与者的历史轨迹用铁蓝色表示。预测目标的历史轨迹用黄色表示，真实的未来轨迹用绿色表示。基于数学模型的轨迹生成器生成一系列未来轨迹(蓝色)。基于学习的判别器从中选择条轨迹作为多模态预测结果(红色)，红色的深度表明它们的概率。

图6 在Argoverse验证集上，本文方法(第一行)与LaneGCN(第二行)的定性比较，配色方案与图5相同。在这里，我们使用最先进的方法LaneGCN[22]作为典型的预测模型的代表，这些模型通过神经网络生成无约束轨迹。我们展示了它们的常见故障，包括运动学和环境不可行的预测。由于运动约束，车辆不能高速突然转弯(第一列)，也不能反向移动(第二列)。此外，跨车道边界转弯(第三列)和反向车道转弯(第四列)的预测结果也不符合环境约束。这种不可行的预测会给自动驾驶车辆的决策和行为规划造成多余的负担。相比之下，基于模型的生成器生成的未来轨迹集(蓝色)被运动学和环境约束明确规范，因此，可以做出准确和合理的未来预测(红色)。

图7 Argoverse运动预测排行榜前10名（截至2021-03-01）

结论

我们提出了一个预测框架PRIME，采用基于数学模型的规划方法来学习预测车辆轨迹。PRIME通过利用基于数学模型的轨迹生成器在显式约束下生成未来的轨迹，保证轨迹的可行性。它通过使用基于学习的判别器来获取场景上下文中的隐含交互关系，并通过评分来选择未来的轨迹，从而生成准确的轨迹预测。此外，基于模型的轨迹生成与基于学习的轨迹选择相结合，减轻了对长期跟踪的高度依赖。我们的PRIME在预测准确性、可行性和鲁棒性方面优于其它最先进的预测模型，并在竞争激烈的Argoverse排行榜上获得了第一名。除了这些性能指标，我们的方法还合理地规范了预测空间，并使用连续信息生成轨迹预测，这有助于自动驾驶汽车的决策和运动规划。此外，它兼容各种道路信息，如车辆类型，交通规则等。这些优点对实际系统的部署非常有利。