基于时空注意力的多模态轨迹预测方法思考

本文从这两个研究的关键点出发，对现有的深度学习方法进行了介绍，并分析了现今仍需要研究的几个难点问题。

第1章绪论

1.2研究现状

随着技术水平的进步，根据交通参与者的历史轨迹数据来进行轨迹预测的相关研究变得越发火热，在过去十几年中，轨迹预测取得了重大进展：

1.物理模型方法

早期的方法通常基于物理模型，比如：1）运动学模型,常用的包括恒定速度（Con-stant Velocity，CV）和恒定加速度（Constant Acceleration，CA）模型[5–7]，恒定转弯速率和速度（Constant Turning Rate and Velocity,CTRV）和恒转弯速率和加速度（Con-stant Turning Rate and Acceleration，CTRA）模型[8,9]，恒定转向角和速度（ConstantSteering Angle and Velocity，CSAV）以及恒转向角和加速度（Constant Steering Angleand Acceleration，CSAA）模型[10]等。2）卡尔曼滤波（Kalman Filtering，KF）方法，与以前的方法相比，KF的优点是考虑了预测轨迹的不确定性，其通过高斯分布对当前车辆状态的不确定性进行建模[11]。然而，单峰高斯分布不足以表示轨迹的不确定性。因此Kaempchen等人提出了交互多模型（Interactive Multiple Model，IMM）[11]来生成多模态轨迹。Jin等人提出了切换卡尔曼滤波器（Switched Kalman Filter，SKF）[12]用于描述车辆运动状态的不确定性。3）蒙特卡洛方法（Monte Carlo，MC），Okamoto等人提出了一种基于策略的模型[13]，该模型应用蒙特卡罗方法通过估计不确定状态预测交通参与者的轨迹。Wang等人使用蒙特卡罗方法预测轨迹[14]，并利用模型预测控制（Model Predictive Control，MPC）进行优化。

上述基于物理的方法通常依赖于物理定律和运动学/动力学模型来预测交通参与者的运动轨迹。虽然这些方法可以消耗相对较少的计算资源，但由于它们无法考虑到交通参与者未来行为的不确定性和复杂性，因此其预测精度相对较低。另外，由于交通参与者的运动状态在现实中是不断变化的，这些方法往往只适用于短期预测（小于1秒），无法有效地预测更长时间范围内的运动轨迹。

第3章基于时空动态注意力网络的车辆轨迹预测方法

3.1模型结构

本章中提出的模型不直接输出自车的未来轨迹坐标，而是输出其未来轨迹坐标的概率分布，即车辆轨迹预测问题被表述为基于观察到的自车及邻车的历史运动信息预测自车未来轨迹坐标的概率分布。在本章中，上标表示车辆，下标表示时刻。设Vt= v0t,v1t,v2t,···,vNt 是总计N+1车辆在时刻t的状态，vit表示车辆i在t时的轨迹数据，包括其x和y坐标、速度、加速度、车辆类型等。v0t和vit(i≥1)分别为自车和邻车。设V 0F= v0T+1,v0T+2,···,v0T+F 表示自车从时刻T+1到T+F的预测轨迹，v0T+f(1≤f≤F)由自车在未来时刻T+f的x和y坐标组成，F是预测范围。模型的输入由过去T时刻中的VH={V1,V2,···,VT}组成，模型的输出是VF上的概率分布P(VF|VH)，v0T+f的分布被参数化为二维高斯分布，均值为(µT+f,x,µT+f,y)，方差为 σ2T+f,x,σ2T+f,y ，以及相关系数为ρT+f。

为了精确预测车辆轨迹，必须考虑自车与邻车之间复杂的时间和空间相关性。因此，本章提出了基于时空动态注意力网络的车辆轨迹预测方法，如图3.1所示。该方法包含以下模块：（1）运动编码（Motion Encoder，ME）模块，使用LSTM编码器对所有车辆的状态进行编码，从原始轨迹数据中提取时间关系。（2）空间交互（SpatialInteraction，SI）模块，捕捉自车与邻车之间在不同时刻的空间交互关系。（3）动态交互依赖（Dynamic Interaction Dependency，DID）模块，捕捉空间交互模块输出序列中的时间依赖关系。（4）意图特征融合（Intention-speciﬁc Feature Fusion，IFF）模块，基于不同的驾驶意图融合不同时间和空间特征。（5）多模态轨迹预测（Multi-modalTrajectory Prediction，MTP）模块，使用不同的融合特征来实现未来时刻的多模态轨迹预测。

第5章基于时空联合注意力Transformer的行人轨迹预测方法

5.1模型结构

本章中，假设行人i在时间戳t的位置表示为pit={xit,yit}其中i=1,2,···,N,N为场景中行人总数，1≤t≤T,T是观察到的轨迹的长度。使用上标表示行人，下标表示时刻。行人轨迹预测的目标是预测所有行人未来的位置pˆit={xˆit,yˆit}，其中T+1≤t≤T+F，F是预测范围。

本章所提出模型的总体结构如图5.1所示。模型的输入是行人在观察区间[1,T]的坐标数据。首先将原始坐标数据嵌入到高维空间中。并通过JSTIL模块进行特征交互，在JSTIL模块中，使用ESGAT捕获行人的空间和时间特征，从而可以在提取丰富交互特征的同时，并很好地保留了时间顺序和行人身份，以及可以自动消除多余的交互。然后通过RQG模块将编码的特征转换为一组解码查询。随后使用JSTIL模块和CAL模块对解码查询之间的关系进行建模，并利用CAL从JSTIL模块的输出中提取有用的特征。最后使用MLP来输出预测的未来轨迹。

5.2实验与分析

5.2.1实验实施细节

1.模型设置该模型

由Pytorch深度学习框架[109]实现。在训练阶段，批量大小设置为1。使用Adam优化器[110]对模型进行100轮次的训练。模型的初始学习率为0.0001，并在每10个训练轮次时减半。式5.1中嵌入eti的维数设置为512。对于编码层使用两个JSTIL模块，解码层使用一个JSTIL模块。注意的头数设置为4。

2.相关数据集

本章中将在ETH/UCY[50,51]数据集上进行实验，并与最近一些具有先进性能的行人轨迹预测模型进行比较，以评估所提出模型的预测性能。遵循以前的研究[32]，本章将采用留一法进行性能评估，即在ETH/UCY的五个子数据集中，依次使用四个数据集用于训练模型，其余用于测试。数据集的介绍及预处理方式参见本文第2.2节。

3.评价指标

本章采用ADE和FDE来衡量每个方法的预测性能。具体计算方法参见本文第2.2节。

4.对比方法介绍

本章使用以下基线模型进行比较:

•SGAN[41]：该模型使用池化操作来聚合周围行人的特征，并使用GAN生成多模态预测。

•SoPhie[52]：该模型基于GAN，可以利用来自场景上下文的信息和轨迹历史信息进行多模态预测。

•Social-STGCNN[53]：该模型提出了一个时空图卷积网络来探索交互表示，并使用时间卷积网络来实现预测。

•NMMP[122]：该模型提出了一种神经运动消息传递方法，以显式学习与其他代理的定向交互。•HSTA[123]：该模型应用GAT和多头注意力分别捕捉时间和空间相关性，然后融合时间和空间两个分支的特征进行预测。

•TPNSTA[124]：该模型提出了一个具有多分辨率的时间金字塔网络，其采用统一的时空注意机制来融合重要信息。

•SGCN[34]：该模型提出了稀疏的有向空间和时间图来分别表征行人交互和运动趋势。

•E-SR-LSTM[125]：该模型提出了数据驱动的状态细化LSTM网络，并通过消息传递框架利用邻近行人的意图。

第6章总结与展望

6.2研究展望

本文对轨迹预测算法进行了深入研究，并取得了较好的结果，但仍面临一些挑战，因此可以在以下方向进行进一步研究。

（1）引入更多信息：目前的轨迹预测算法主要依靠历史轨迹数据进行交互建模和预测，但实际环境中的其他因素也对轨迹预测具有重要影响。例如，在交通场景中，交通信号灯的状态可以影响车辆的行驶轨迹；在道路上，道路标志可以为轨迹预测提供额外的输入。此外，车辆转向信号、喇叭声等也是可以作为预测参考的信息。因此，在未来的轨迹预测算法中，可以考虑将更多的环境信息引入到模型中，以提高预测精度和可靠性。

（2）丰富预测场景：目前的轨迹预测算法主要应用于单一的车辆轨迹或行人轨迹数据集，而在实际情况中，交通场景通常非常复杂。例如，在十字路口这样的复杂场景中，会出现各种不同类型的道路使用者，包括车辆、行人、自行车等。因此，需要开发更加适用于异构场景的轨迹预测算法，以满足自动驾驶的安全性要求。

（3）与其他技术集成：轨迹预测算法不仅可以提高自动驾驶车辆的安全性，还可以与其他技术集成，进一步提高整个系统的效率。例如，将轨迹预测结果与决策、轨迹规划和运动控制相结合，可以实现更加智能和高效的自动驾驶系统。另外，专用短程通信和蜂窝V2X技术的发展，也为智能车辆提供了更加可靠和高质量的服务。这些技术可以将数据传输至边缘计算服务器，从而提供高清地图、导航、路线规划等服务，为自动驾驶车辆提供更加完善的支持。

参考文献（略）

（本文摘自网络）