知识牵引与数据驱动的兵棋AI设计及关键技术.docxVIP

下载本文档

44
0
约7.57千字
约 9页
2021-09-16 发布于广东
举报
版权申诉

知识牵引与数据驱动的兵棋AI设计及关键技术.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

知识牵引与数据驱动的兵棋AI设计及关键技术 0 引言兵棋是一种研究战争内在规律和训练指挥员指挥决策能力的工具，分为手工兵棋和计算机兵棋。随着信息技术的飞速发展，计算机兵棋逐渐成为当前兵棋推演的主要方式。特别是近年来人工智能技术在AlphaGo、德州扑克以及星际争霸等游戏领域取得的突破国外兵棋系统发展较早，美军通过联合战区级兵棋系统(joint theater level simulation，JTLS) 和联合冲突战术兵棋系统(joint conflict and tactical simulation，JCATS)分析梳理现有兵棋AI的研究，可以看出主要是利用强化学习、迁移学习、深度神经网络、行为树、有限状态机、启发式搜索、博弈优化等技术提升兵棋AI在态势感知与判断、指挥决策与行动执行等方面的智能性1 两类兵棋AI优缺点分析知识推理型和数据学习型兵棋AI是目前兵棋推演中主要使用的两类决策模型，它们各自具有一定的优势及不足。1.1 知识推理型兵棋AI知识推理型兵棋AI是通过人工抽取作战规则、条令条例、指挥员经验等非结构化信息形成领域知识，并以此为基础进行推理决策的模型。1.1.1 知识推理型兵棋AI的优点 1）无需训练，可解决智能体的冷启动问题通过人工编辑将军事知识转化成计算机可以识别的结构化数据库，作为兵棋AI进行推理决策的依据，一旦知识库建立好，不需要经过长时间的训练，知识推理型兵棋AI即可运行。2）具备高层战法智能性，取决于领域知识的完善程度人工抽取的知识大都是指挥员多年累积的经验规则，例如体现指挥艺术的战法策略，因此知识推理型兵棋AI能够体现出符合军事常识的策略层面决策，其高层智能性水平取决于领域知识的完善程度。1.1.2 知识推理型兵棋AI的缺点 1）人工建模领域知识，效率低下知识和经验大都来自领域专家，通常领域专家并不是计算机专家，需要计算机专家理解领域专家的知识后，再建立结构化数据库让计算机可读，这个过程非常艰难，需要高度的协同和昂贵的成本，费时费力。2）确定性规则，智能化水平有上限通常知识推理型兵棋AI都是基于确定性的规则进行推理决策，其上限是领域专家的个人经验，难以突破产生超越人类智慧的水平，且展现出来的行为动作比较固定，很容易被对手发现缺陷。1.2 数据学习型兵棋AI数据学习型兵棋AI是基于大量数据及与环境的交互，通过深度学习、强化学习等方式不断学习训练得到的决策模型。1.2.1 数据学习型兵棋AI的优点 1）通过算法自动从数据中学习知识，自动化程度高不需要人工提炼领域知识，依靠算法和强大的算力，可以处理大量数据，从数据中获取经验知识，通过不断优化学习展示出一定的智能性。2）探索未知套路，灵活性高由于是从数据获取知识而不是人工编码知识，数据学习型兵棋AI可能从自我博弈的数据中发现未知的行动套路，基于态势输出动作，展示出较高的灵活性。1.2.2 数据学习型兵棋AI的缺点1）状态空间大，奖励延迟长，学习训练代价高昂对于较为复杂的决策场景，模型学习训练的搜索空间极其巨大，并且对于持续的序惯决策而言，随着序惯长度的增加，模型的奖励延迟加长，造成学习训练的计算代价高昂。2）模型解释能力较差，泛化能力较弱通常训练得到深度神经网络模型，知识隐藏在结点与结点的连接及其权重上，人类对这些形式的知识难以理解和解释。如果模型训练的场景与实际应用时的场景差别较大，效果通常较差。3）高层战法策略学习困难基于数据进行训练，得到的大多是底层动作级的模型，即状态-动作响应输出模型，很难从数据中学习得到较高层面的战法策略型知识，而往往这些战法策略型知识更能体现出高水平的智能性。1.3 两类兵棋AI优缺点比较从上述知识推理型兵棋AI与数据学习型兵棋AI的优缺点分析可以看出，知识推理型兵棋AI具有无需训练、高层智能的优势，而数据学习型兵棋AI具有自动学习、灵活性高的优势，因此考虑将这两者的优势有机结合起来，形成优势互补的知识与数据混合的兵棋AI，如图1所示。2 知识牵引与数据驱动的兵棋AI设计在知识与数据混合的思想指导下，以知识牵引AI的整体策略，以数据驱动AI的具体动作，设计基于知识牵引与数据驱动的兵棋AI框架。该框架分为宏观和微观两个层面，宏观层面AI为知识推理型，实现高层策略设计，主要通过作战任务规划技术产生作战行动序列，微观层面AI为数据学习型，实现底层态势-动作执行，接收宏观AI输出的作战行动序列，主要基于深度强化学习技术，产生算子最终执行的动作行为，如图2所示。知识主要包括战法艺术类、行动规则类以及对抗经验类等，为宏观AI提供推理决策依据。其中战法艺术类知识主要指高层的作战策略，体现指