CN115437406B 基于强化学习算法的飞行器再入跟踪制导方法 (西安电子科技大学).docxVIP

CN115437406B 基于强化学习算法的飞行器再入跟踪制导方法 (西安电子科技大学).docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

(19)国家知识产权局

(12)发明专利

(10)授权公告号CN115437406B(45)授权公告日2025.07.08

(21)申请号202211130234.9

(56)对比文件

(22)申请日2022.09.16

CN111351488

A,2020.06.30

(65)同一申请的已公布的文献号

CN112947592

A,2021.06.11

申请公布号CN115437406A

审查员梁策

(43)申请公布日2022.12.06

(73)专利权人西安电子科技大学

地址710071陕西省西安市太白南路2号

(72)发明人冯冬竹戴沛崔家山仲秦

秦翰林张立华冯炜皓马佳笛

(74)专利代理机构陕西电子工业专利中心

61205

专利代理师王品华

(51)Int.CI.

GO5D1/46(2024.01)

B64G1/24(2006.01)

权利要求书5页

说明书16页附图5页

(54)发明名称

基于强化学习算法的飞行器再入跟踪制导方法

(57)摘要

CN115437406B本发明公开了一种基于强化学习算法的飞行器再入跟踪制导方法,用于解决现有技术中对系统模型依赖性较大和适应性及制导性能差的问题。其实现方案为建立半速度坐标系下飞行器再入连续最优控制问题;将飞行器再入连续最优控制问题转化为序列凸最优控制问题;将序列凸最优控制问题转化为序列二阶锥规划问题;对序列二阶锥规划问题进行求解,获取飞行器最优倾侧角;对最优倾侧角轨迹采样得到参考轨迹训练数据集;构建神经网络和奖励函数;利用训练数据集对神经网络进行离线训练,直到累计奖励收敛到最大值,得到制导网络;通过制导网络在线

CN115437406B

整飞行器再入段软迹优化

整飞行器再入段软迹优化

到序列凸最优控制问题PI

采用伪语法对PI进行离散

参数化处理,得到序列二阶维规划问题P2

采用内点法求解P2,得到最优化参考轨迹,对其采样得参考轨迹训练数据集

构建神经网络Actor网络和Critic网络

设置奖励函数

同步离线训练Actor和Critic神经网络得到制导

在线获取飞行器再入段制导指令并实时跟踪

CN115437406B权利要求书1/5页

2

1.一种基于强化学习算法的飞行器再入跟踪制导方法,其特征在于,包括如下步骤:

(1)将飞行器再入段轨迹优化描述为由数学模型、边界条件、容许控制、性能指标、过程约束构成的连续最优控制问题P0;

(2)对P0进行更换形式、松弛变量、软化约束、逐次线性化方法的凸化处理,得到序列凸最优控制问题P1,采用伪谱法对该P1进行离散参数化处理,得到序列二阶锥规划问题P2;

(3)采用内点法求解序列二阶锥规划问题P2,得最优参考轨迹;

(4)对最优参考轨迹进行采样得到参考轨迹训练数据集;

(5)构建神经网络Actor网络:

(5a)建立由第一输入层、第一隐藏层、第一输出层依次连接组成的动作评估子网络Actor_eval,该第一输入层输入的状态变量为当前状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量,该第一输出层输出信息为当前状态的攻角增量指令;

(5b)建立由第二输入层、第二隐藏层、第二输出层依次连接组成的动作目标子网络Actor_target,该第二输入层输入的状态变量为智能体下一个状态的地心距、经度、纬度、航迹角、航向角这五个状态变量,该第二输出层输出信息为下一个状态的目标攻角增量指令;

(5c)将动作评估子网络Actor_eval网络和动作目标子网络Actor_target网络并联,构成Actor网络,用于接收经验回放池的状态信息,并输出攻角增量指令信息;

(6)构建神经网络Critic网络:

(6a)建立由第三输入层、第三隐藏层、第三输出层依次连接组成的价值评估子网络Critic_eval,该第三输入层输入的变量为当前状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量以及Actor_eval输出的攻角增量指令,该第三输出层输出信息为智能体这一状态采取指令后产生的累计奖励;

(6b)建立由第四输入层、第四隐藏层、第四输出层依次连接组成的价值目标子网络Critic_target,该第四输入层输入的变量为下一个状态智能体的地心距、经度、纬度、航迹角、航向角这五个状态变量以及Actor_target输出的攻角增

您可能关注的文档

文档评论(0)

xm + 关注
实名认证
文档贡献者

专业学习资料,专业文档

1亿VIP精品文档

相关文档