CN112801273B 一种基于变分自编码器和强化学习的自动驾驶控制器及训练方法（江苏大学）.docxVIP

下载本文档

0
0
约1.14万字
约 17页
2026-01-20 发布于重庆
举报

CN112801273B 一种基于变分自编码器和强化学习的自动驾驶控制器及训练方法（江苏大学）.docx

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN112801273B(45)授权公告日2025.07.11

(21)申请号202110124110.9

(22)申请日2021.01.29

(65)同一申请的已公布的文献号申请公布号CN112801273A

(43)申请公布日2021.05.14

(73)专利权人江苏大学

地址212013江苏省镇江市京口区学府路

301号

(72)发明人蔡英凤杨绍卿高翔陈龙

高洪波刘卫国董钊志

陈军

(51)Int.CI.

GO6N

GO6V

3/0455(2023.01)

3/0464(2023.01)

3/0442(2023.01)

3/092(2023.01)

20/56(2022.01)

20/70(2022.01)

10/26(2022.01)

10/82(2022.01)

B60W60/00(2020.01)

B60W50/00(2006.01)

(56)对比文件

郑振华等.基于视觉特征提取的强化学习自动驾驶系统.《复杂系统与复杂性科学》.2020,第30-37页.

LongChen等.ParallelPlanning:ANewMotionPlanningFrameworkforAutonomousDriving.《IEEE/CAAJOURNAL0FAUTOMATICASINICA》.2019,第第6卷卷(第第1期期),第236-246页.

AriViitala等.LearningtoDriveSmallScaleCarsfromScratch.《arXiv》.2020,1-9.

AliBaheri等.Vision-BasedAutonomousDriving:AModelLearningApproach.《IEEEXplore.》.2020,2520-2525.

审查员吴姗姗

权利要求书2页说明书5页附图2页

(54)发明名称

一种基于变分自编码器和强化学习的自动驾驶控制器及训练方法

(57)摘要

112801273B本发明公开了一种基于变分自编码器和强化学习的自动驾驶控制器及训练方法，采用了变分自编码器提取周围交通环境信息，编码器采用了卷积神经网络加循环神经网络的方法，有效的提取了多个传感器信息和历史环境信息，避免了信息的丢失。强化学习网络利用变分自编码器降维提取的潜在变量作为状态量进行训练，解决了强化学习部分状态空间过大的问题。利用变分自编码器的损失函数构造的附加奖励，加速了智能

112801273B

交通环境

loss

编码器

强化学习网络潜在变量

强化学习网络

解码器

预测特征图

VAE

CN112801273B权利要求书1/2页

1.一种基于变分自编码器和强化学习的自动驾驶控制器，其特征在于，包括变分自编码器和强化学习网络两部分；所述变分自编码器包括编码器和解码器；编码器的输入为带时序信息的环境状态量s,输出为潜在变量特征z;解码器的输入为潜在变量特征z,输出为预测的下一时刻特征；所述强化学习网络的输入为潜在变量特征z和实时奖励r,输出为具体的动作a;

所述实时奖励r包括环境实时反馈的奖励r’和附加奖励B(s),具体表达式为：

rt=r’+B(st)

其中，附加奖励B(st)的表达式为：

B(st)=-γlog(p(s.))

γ为比例因子，-1og(p(s))为状态量的信息量，p(st)表示为状态量s的稠密程度；

所述编码器包括卷积模块和循环神经网络模块，卷积模块处理第m时刻的前视摄像头图片、雷达点云图和地图，提取特征f,卷积模块每次共处理连续四个时刻的前视摄像头图片、雷达点云图和地图，提取的特征分别为f?、f?、f?和f?,将连续的四个时刻特征处理为时序特征组，输入到循环神经网络模块；循环神经网络模块最后将带有四个时刻的特征的时序特征组进一步提取出潜在变量；

CN112801273B 一种基于变分自编码器和强化学习的自动驾驶控制器及训练方法（江苏大学）.docxVIP