- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
哈尔滨工业大学硕士学位论文
摘要
末制导律是导弹制导领域中的一项关键技术,用于导弹在末端飞行阶段精确
命中目标。现阶段控制学中的比例制导律及其改进方法能够在理论环境下表现良
好,但在实际环境中常受到噪音、信号延迟等因素的影响而表现不佳。针对这一问
题,研究者们致力于探索更为高级和智能化的末制导律方法。近年来,随着深度强
化学习技术的迅速发展,在解决长序列决策问题方面取得了显著的突破。在这一背
景下,研究者们自然而然地将深度强化学习技术引入到末制导问题的研究中。然而,
在强化学习领域中,一直存在稀疏奖励这一问题。稀疏奖励问题会导致智能体无法
获得足够的奖励信号,从而无法训练出良好的策略。奖励塑造是解决稀疏奖励问题
的一种直观方法,通过人工构建在当前环境下表现优异的稠密奖励函数来替代原
始的稀疏奖励函数,从而帮助智能体训练。但是良好的奖励函数设计困难重重,同
时引入稠密奖励也会改变原始的稀疏奖励环境,可能引入额外的因素与噪声。
本文旨在研究强化学习领域中的两个问题:末制导问题及其代表的更宽泛的
稀疏奖励问题,具体的贡献如下:
(1)针对当前强化学习算法在末制导任务中表现不佳的情况,本文成功地将
强化学习中的信任域策略优化算法引入到末制导问题中,直接学习导弹的控制量,
并提供了一个新颖而精心设计的稠密奖励来辅助智能体的训练。通过在末制导的
模拟环境中进行实验,该算法展现出高效的制导效果和精确的制导精度,取得了令
人满意的成果。
(2)针对强化学习中普遍存在的稀疏奖励问题以及奖励塑造方法的一些缺点,
本文提出了一种自适应奖励函数方法,该方法可以在训练的前期引入稠密奖励帮
助智能体学习到好的策略,在训练的后期逐渐地回归到原始稀疏奖励,从而确保重
构的奖励不会引入额外的因素。同时本文还训练了一个变分自编码器,通过使用状
态在隐空间中的距离来代替原始的实际距离,可以综合考虑更多维度的信息。
实验表明,本研究提出的方法在解决末制导问题和稀疏奖励问题方面取得了
显著成效。信任域策略优化算法的应用以及精心设计的稠密奖励有效提高了导弹
控制的效率和精度。同时,本文提出的自适应奖励函数方法为解决稀疏奖励问题提
供了初步的新思路。这些研究成果为奖励函数的设计和强化学习在末制导中的应
用提供了有力支持,为未来相关领域的研究和实践提供了重要参考。
关键词:强化学习;末制导律;信任域策略优化算法;自适应奖励重塑
I
哈尔滨工业大学硕士学位论文
Abstract
Theterminalguidancelawisakeytechnologyinthefieldofmissileguidance,which
isusedtoaccuratelyhitthetargetintheterminalflightstageofthemissile.Atpresent,
theproportionalguidancelawanditsimprovementmethodincontrolsciencecanperform
wellinthetheoreticalenvironment,butintheactualenvironment,itisoftenaffectedby
noise,signaldelayandotherfactorsandperformspoorly.Inresponsetothisproblem,
researchersarecommittedtoexploringmoreadvancedandintelligentterminalguidance
lawmethods.Inrecentyears,withtherapiddevelopmentofdeepreinforcementlearning
techniques,remarkablebreakthroughshavebeenmadeinsolvinglongsequencede
原创力文档


文档评论(0)