第
51
卷
第
11
期自
动
化
学
报Vol.
51,
No.
11
2025
年
11
月ACTA
AUTOMATICA
SINICANovember,
2025
面向可信自动驾驶策略优化:一种对抗鲁棒强化学习方法
12324
何祥坤
赵
洋
房建武
程
洪
吕
辰
摘要虽然强化学习近年来取得显著成功,
但策略鲁棒性仍然是其在安全攸关的自动驾驶领域部署的关键瓶颈之一.
一
个根本性挑战在于,
许多现实世界中的自动驾驶任务面临难以预测的环境变化和不可避免的感知噪声,
这些不确定性因素
可能导致系统执行次优的决策与控制,
甚至引发灾难性后果.
针对上述多源不确定性问题,
提出一种对抗鲁棒强化学习方
法,
实现可信端到端控制策略优化.
首先,
构建一个可在线学习的对手模型,
用于同时逼近最坏情况下环境动态扰动与状态
观测扰动.
其次,
基于零和博弈建模自动驾驶智能体与环境动态扰动之间的对抗性.
再次,
针对所模拟的多源不确定性,
提
出鲁棒约束演员–评论家算法,
在连续动作空间下实现策略累积奖励最大化的同时,
有效约束环境动态扰动与状态观测扰动
对所学端到端控制策略的影响.
最后,
将所提出的方案在不同的场景、交通流及扰动条件下进行评估,
并与三种代表性的方
法进行对比分析,
验证了该方法在复杂工况和对抗环境中的有效性与鲁棒性.
关键词自动驾驶,
智能交通,
强化学习,
可信人工智能
引用格式
何祥坤,
赵洋,
房建武,
程洪,
吕辰.
面向可信自动驾驶策略优化:
一种对抗鲁棒强化学习方法.
自动化学报,
2025,
51(11):
2473−2485
DOI
10.16383/j.aas.c250193
CSTR
32138.14.j.aas.c250193
TowardTrustworthyPolicyOptimizationforAutonomousDriving:
AnAdversarialRobustReinforcementLearningApproach
12324
HE
Xiang-Kun
ZHAO
Yang
FANG
Jian-Wu
CHENG
Hong
LV
Chen
AbstractWhile
reinforcement
learning
has
achieved
remarkable
success
in
recent
years,
policy
robustness
remains
one
of
the
critical
bottlenecks
for
its
deployment
in
safety-critical
autonomous
driving
domains.
A
fundamental
challenge
lies
in
the
unpredictable
environmental
changes
and
unavoidable
perception
noises
that
many
real
您可能关注的文档
最近下载
- 压力表校准证书.docx VIP
- 2024年湖南水利水电职业技术学院单招职业技能测试题库带答案(预热题).docx VIP
- 2022-2023学年北京市朝阳区高三语文上学期期末试卷附答案解析1169.pdf VIP
- 团播,一次产业的自我升级-29页.pptx VIP
- 2024年湖南水利水电职业技术学院单招职业技能测试题库带答案(b卷).docx VIP
- 饭店厨房管理规章制度.doc VIP
- 2025-2025年国家能源集团招聘电气类专业知识考试笔试题目试卷及答案.docx VIP
- 2026年流动式起重机司机证模拟考试题库及答案.doc VIP
- 团播公司可行性方案.pptx VIP
- 2025年江苏卫生健康职业学院单招《数学》真题带答案详解(模拟题).docx VIP
原创力文档

文档评论(0)