|
大语言模型协同强化学习的自动驾驶决策方法
王祥, 任浩, 谭国真, 李健平, 王珏, 王妍力
2025, 25(4):
137-146.
DOI: 10.16097/j.cnki.1009-6744.2025.04.014
针对当前自动驾驶系统的高层决策缺乏具体执行细节和持续学习能力的问题,本文围绕大语言模型(Large Language Model, LLM)研究细化自动驾驶决策环节的应用。基于LLM强大的推理能力和强化学习(Reinforcement Learning, RL)的探索能力,提出一种LLM协同RL细化决策的方法。首先,基于RL输出的高级动作,利用LLM的推理能力预测自车的未来轨迹点;然后,将RL模型的输出和当前状态信息相结合,对下一个状态做出安全、无碰撞且可解释的预测;最后,将上述驾驶决策过程向量化后,存储到记忆模块作为驾驶经验,驾驶经验定期更新,实现持续学习。LLM预测的轨迹点为PID(Proportional-Integral Derivative)控制器提供详细的运动路径,为其调整车辆加速度和速度提供依据,确保车辆沿预定路径行驶。此外,轨迹预测还能评估并规避潜在碰撞风险,通过分析交通状态和历史数据规划安全路径。闭环实验结果表明:本文决策方法在各项评估指标上均优于其他模型,相对于RL、单纯基于LLM的决策方法和基于LLM跟车模型的驾驶分数分别提高了35.12,14.33和12.28,拥有记忆模块的方法比没有记忆模块的方法的驾驶分数提高了25.59。
参考文献 |
相关文章 |
计量指标
|