面向可信自动驾驶策略优化:一种对抗鲁棒强化学习方法.pdf

面向可信自动驾驶策略优化:一种对抗鲁棒强化学习方法.pdf

51

11

期自

报Vol.

51,

No.

11

2025

11

月ACTA

AUTOMATICA

SINICANovember,

2025

面向可信自动驾驶策略优化:一种对抗鲁棒强化学习方法

12324

何祥坤

房建武

摘要虽然强化学习近年来取得显著成功,

但策略鲁棒性仍然是其在安全攸关的自动驾驶领域部署的关键瓶颈之一.

个根本性挑战在于,

许多现实世界中的自动驾驶任务面临难以预测的环境变化和不可避免的感知噪声,

这些不确定性因素

可能导致系统执行次优的决策与控制,

甚至引发灾难性后果.

针对上述多源不确定性问题,

提出一种对抗鲁棒强化学习方

法,

实现可信端到端控制策略优化.

首先,

构建一个可在线学习的对手模型,

用于同时逼近最坏情况下环境动态扰动与状态

观测扰动.

其次,

基于零和博弈建模自动驾驶智能体与环境动态扰动之间的对抗性.

再次,

针对所模拟的多源不确定性,

出鲁棒约束演员–评论家算法,

在连续动作空间下实现策略累积奖励最大化的同时,

有效约束环境动态扰动与状态观测扰动

对所学端到端控制策略的影响.

最后,

将所提出的方案在不同的场景、交通流及扰动条件下进行评估,

并与三种代表性的方

法进行对比分析,

验证了该方法在复杂工况和对抗环境中的有效性与鲁棒性.

关键词自动驾驶,

智能交通,

强化学习,

可信人工智能

引用格式

何祥坤,

赵洋,

房建武,

程洪,

吕辰.

面向可信自动驾驶策略优化:

一种对抗鲁棒强化学习方法.

自动化学报,

2025,

51(11):

2473−2485

DOI

10.16383/j.aas.c250193

CSTR

32138.14.j.aas.c250193

TowardTrustworthyPolicyOptimizationforAutonomousDriving:

AnAdversarialRobustReinforcementLearningApproach

12324

HE

Xiang-Kun

ZHAO

Yang

FANG

Jian-Wu

CHENG

Hong

LV

Chen

AbstractWhile

reinforcement

learning

has

achieved

remarkable

success

in

recent

years,

policy

robustness

remains

one

of

the

critical

bottlenecks

for

its

deployment

in

safety-critical

autonomous

driving

domains.

A

fundamental

challenge

lies

in

the

unpredictable

environmental

changes

and

unavoidable

perception

noises

that

many

real

文档评论(0)

1亿VIP精品文档

相关文档