|
基于柔性演员-评论家算法的决策规划协同研究
唐斌, 刘光耀, 江浩斌, 田宁, 米伟, 王春宏
2024, 24(2):
105-113.
DOI: 10.16097/j.cnki.1009-6744.2024.02.011
为了解决基于常规深度强化学习(DeepReinforcementLearning,DRL)的自动驾驶决策存在学习速度慢、安全性及合理性较差的问题,本文提出一种基于柔性演员-评论家(SoftActor-Critic, SAC)算法的自动驾驶决策规划协同方法,并将SAC算法与基于规则的决策规划方法相结合设计自动驾驶决策规划协同智能体。结合自注意力机制(SelfAttentionMechanism,SAM)和门控循环单元(Gate Recurrent Unit, GRU)构建预处理网络;根据规划模块的具体实现方式设计动作空间;运用信息反馈思想设计奖励函数,给智能体添加车辆行驶条件约束,并将轨迹信息传递给决策模块,实现决策规划的信息协同。在CARLA自动驾驶仿真平台中搭建交通场景对智能体进行训练,并在不同场景中将所提出的决策规划协同方法与常规的基于SAC算法的决策规划方法进行比较,结果表明,本文所设计的自动驾驶决策规划协同智能体学习速度提高了25.10%,由其决策结果生成的平均车速更高,车速变化率更小,更接近道路期望车速,路径长度与曲率变化率更小。
参考文献 |
相关文章 |
计量指标
|