基于深度强化学习的装备组合运用方法.docxVIP

下载本文档

11
0
约4.57千字
约 5页
2021-08-08 发布于湖北
举报
版权申诉

基于深度强化学习的装备组合运用方法.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于深度强化学习的装备组合运用方法由于装备是离散存在，因此需要组合运用。组合运用是装备运用的内在要求，是装备释放体系作战效能的主要形式，是实现装备自动匹配的核心问题。但由于组合问题的复杂性，以及作战意图与作战环境的不确定，求解装备组合运用问题非常困难，各界对此进行了大量理论探索。如围绕不同领域，孙盛智等文章分析了装备组合运用问题，建立了基于深度强化学习的装备组合运用方法的概念、模型、框架，进行了实验验证，在战机突破舰艇防空系统的作战想定下，智能体均能按照作战意图推荐较合理的装备运用方案，取得较理想的实验效果，表明了基于深度强化学习的装备组合运用方法的可行性。1 装备组合运用问题描述冷兵器时代，装备的组合运用主要是简单的数量与功能组合，体现在“阵”的形式与变换之中。商周时期，车阵编成中士兵以5人为一伍，分别执戈、戟、殳、矛、弓，形成5×5的步卒阵，是谓“两”（如图1所示发现装备最优的组合形式，实现装备体系运用的效果，关键在于科学的装备组合运用方法。在智能化时代，创新装备组合运用方法，实现装备根据任务自动匹配，是增强决策优势，重塑作战流程、作战组织和作战理念的基础，甚至是推动智能化军事革命的关键所在。美军开发的所谓的马赛克战、决策中心战、分布式海上作战、联合全域指挥控制等作战概念，都是首先基于装备自动匹配问题的解决。为此，进行智能化作战，需加强装备组合运用问题研究，探索智能化的装备组合运用方法。为定量研究装备组合问题，首先对问题进行形式化的描述。一般认为：装备组合运用问题，是在一定的作战条件和作战目标下，军事指挥人员为发挥最大的作战效能，研究如何组合运用多个装备的问题。用数学表述为：在一定的作战条件和作战目标下，设有由于装备在运用中是“活”的，具有各种属性，比如时间先后顺序、空间方位路径、武器挂载方案、电磁管控措施等。考虑装备的运用属性，进一步把装备组合运用问题表述为：在一定的作战条件和作战目标下，设有2 深度强化学习原理深度强化学习也称深度增强学习，是融合深度学习与强化学习的一类人工智能算法。由于综合利用了深度学习的感知表示能力和强化学习的决策规划能力，深度强化学习更接近人类的思维方式，具有处理各种复杂问题的能力。深度强化学习主要遵循强化学习的框架，采用马尔科夫决策过程，形式化地描述智能体与环境的交互过程，如图3所示在强化学习中，智能体的目标是最大限度地获取长期收益。假设在时刻智能体期望回报的大小取决于智能体选择的动作，选择动作的根据称之为策略，用称为策略为解决一般的强化学习算法对高维状态空间和动作空间的难题，运用深度神经网络近似表示值函数或策略函数，即为深度强化学习。最早将深度学习和强化学习结合，是郎齐（Lange）等人深度强化学习解决复杂问题的能力在围棋、星际争霸、刀塔（Dota）等游戏中得到充分体现，启发广大研究人员利用其解决军事问题。而且应用深度强化学习解决现实问题，具有无需数据样本从而摆脱数据依赖，无需环境模型从而超越经验知识，无需提取特征从而绕过特征工程等优势。3 装备组合运用模型及仿真框架3.1装备组合运用模型本文采用马尔科夫决策过程的框架，构建装备组合运用的基本模型：指挥人员从作战环境中获取战场态势，作出装备运用决策，获得战绩得分，持续以上循环过程直至任务结束，如图4所示。与强化学习对应的核心概念如下：指挥人员即为智能体，是作出装备组合运用决策的主体。军事问题有战略、战役、战术等不同的层次，不是所有层次的指挥员都被统一视为智能体，如在考虑战术行动的装备组合运用问题时，战术层次的指挥员可被视为智能体，而战役层次的指挥员则视为环境的一部分；考虑战役行动的装备组合运用问题时，战役层次的指挥员可被视为智能体，而战略层次的指挥员则视为环境的一部分。在强化学习中，智能体之外所有与其相互作用的事物都被称为环境。对于装备组合运用问题，对应所指的主要是作战环境。如上文把有的层次的指挥人员视为环境的一部分，基于深度强化学习的装备组合运用方法所指的环境，不仅包括部队所处的自然环境、社会环境等，还包括本层次指挥员所不能控制的其他所有的部分，如作战对手、友方部队、上级单位等。状态是任何对决策有帮助的信息，可以把战场态势作为状态。指挥人员根据战场态势作出装备决策。状态信息主要来源于作战对手（知彼）、已方部队（知己）、客观环境（知天知地）等三个方面。由于存在“战争迷雾”，装备组合运用问题中的状态不是完全可观测的，属于不完全信息决策问题。装备决策是指挥员的动作，包括决策动用装备的型号、数量以及各种属性等。决策动用一件装备可以看作是做出一个动作，多个动作决策形成装备组合运用方案，从而把装备组合问题转变为序贯决策问题。由于装备是离散的，因而对于其组合运用问