摘要
摘要
自动驾驶技术正引领交通系统的智能化转型,能有效提升通行效率与行车安
全。行为决策作为自动驾驶系统的核心模块,关键在于复杂道路场景下的高效安
全决策。基于规则的决策方法对突发场景适应性有限,而强化学习在连续动作空
间中Q值高估和策略稳定性问题亟待突破。为此,本文设计了基于行动者-评论
家架构的强化学习决策算法RSACE(RegularizationSoftActorCr
摘要
摘要
自动驾驶技术正引领交通系统的智能化转型,能有效提升通行效率与行车安
全。行为决策作为自动驾驶系统的核心模块,关键在于复杂道路场景下的高效安
全决策。基于规则的决策方法对突发场景适应性有限,而强化学习在连续动作空
间中Q值高估和策略稳定性问题亟待突破。为此,本文设计了基于行动者-评论
家架构的强化学习决策算法RSACE(RegularizationSoftActorCr
文档评论(0)