知识牵引与数据驱动的兵棋AI设计及关键技术.docxVIP

知识牵引与数据驱动的兵棋AI设计及关键技术.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
知识牵引与数据驱动的兵棋AI设计及关键技术 0 引 言 兵棋是一种研究战争内在规律和训练指挥员指挥决策能力的工具,分为手工兵棋和计算机兵棋。随着信息技术的飞速发展,计算机兵棋逐渐成为当前兵棋推演的主要方式。特别是近年来人工智能技术在AlphaGo、德州扑克以及星际争霸等游戏领域取得的突破 国外兵棋系统发展较早,美军通过联合战区级兵棋系统(joint theater level simulation,JTLS) 和联合冲突战术兵棋系统(joint conflict and tactical simulation,JCATS) 分析梳理现有兵棋AI的研究,可以看出主要是利用强化学习、迁移学习、深度神经网络、行为树、有限状态机、启发式搜索、博弈优化等技术提升兵棋AI在态势感知与判断、指挥决策与行动执行等方面的智能性 1 两类兵棋AI优缺点分析 知识推理型和数据学习型兵棋AI是目前兵棋推演中主要使用的两类决策模型,它们各自具有一定的优势及不足。 1.1 知识推理型兵棋AI 知识推理型兵棋AI是通过人工抽取作战规则、条令条例、指挥员经验等非结构化信息形成领域知识,并以此为基础进行推理决策的模型。 1.1.1 知识推理型兵棋AI的优点 1)无需训练,可解决智能体的冷启动问题 通过人工编辑将军事知识转化成计算机可以识别的结构化数据库,作为兵棋AI进行推理决策的依据,一旦知识库建立好,不需要经过长时间的训练,知识推理型兵棋AI即可运行。 2)具备高层战法智能性,取决于领域知识的完善程度 人工抽取的知识大都是指挥员多年累积的经验规则,例如体现指挥艺术的战法策略,因此知识推理型兵棋AI能够体现出符合军事常识的策略层面决策,其高层智能性水平取决于领域知识的完善程度。 1.1.2 知识推理型兵棋AI的缺点 1)人工建模领域知识,效率低下 知识和经验大都来自领域专家,通常领域专家并不是计算机专家,需要计算机专家理解领域专家的知识后,再建立结构化数据库让计算机可读,这个过程非常艰难,需要高度的协同和昂贵的成本,费时费力。 2)确定性规则,智能化水平有上限 通常知识推理型兵棋AI都是基于确定性的规则进行推理决策,其上限是领域专家的个人经验,难以突破产生超越人类智慧的水平,且展现出来的行为动作比较固定,很容易被对手发现缺陷。 1.2 数据学习型兵棋AI 数据学习型兵棋AI是基于大量数据及与环境的交互,通过深度学习、强化学习等方式不断学习训练得到的决策模型。 1.2.1 数据学习型兵棋AI的优点 1)通过算法自动从数据中学习知识,自动化程度高 不需要人工提炼领域知识,依靠算法和强大的算力,可以处理大量数据,从数据中获取经验知识,通过不断优化学习展示出一定的智能性。 2)探索未知套路,灵活性高 由于是从数据获取知识而不是人工编码知识,数据学习型兵棋AI可能从自我博弈的数据中发现未知的行动套路,基于态势输出动作,展示出较高的灵活性。 1.2.2 数据学习型兵棋AI的缺点 1)状态空间大,奖励延迟长,学习训练代价高昂 对于较为复杂的决策场景,模型学习训练的搜索空间极其巨大,并且对于持续的序惯决策而言,随着序惯长度的增加,模型的奖励延迟加长,造成学习训练的计算代价高昂。 2)模型解释能力较差,泛化能力较弱 通常训练得到深度神经网络模型,知识隐藏在结点与结点的连接及其权重上,人类对这些形式的知识难以理解和解释。如果模型训练的场景与实际应用时的场景差别较大,效果通常较差。 3)高层战法策略学习困难 基于数据进行训练,得到的大多是底层动作级的模型,即状态-动作响应输出模型,很难从数据中学习得到较高层面的战法策略型知识,而往往这些战法策略型知识更能体现出高水平的智能性。 1.3 两类兵棋AI优缺点比较 从上述知识推理型兵棋AI与数据学习型兵棋AI的优缺点分析可以看出,知识推理型兵棋AI具有无需训练、高层智能的优势,而数据学习型兵棋AI具有自动学习、灵活性高的优势,因此考虑将这两者的优势有机结合起来,形成优势互补的知识与数据混合的兵棋AI,如图1所示。 2 知识牵引与数据驱动的兵棋AI设计 在知识与数据混合的思想指导下,以知识牵引AI的整体策略,以数据驱动AI的具体动作,设计基于知识牵引与数据驱动的兵棋AI框架。该框架分为宏观和微观两个层面,宏观层面AI为知识推理型,实现高层策略设计,主要通过作战任务规划技术产生作战行动序列,微观层面AI为数据学习型,实现底层态势-动作执行,接收宏观AI输出的作战行动序列,主要基于深度强化学习技术,产生算子最终执行的动作行为,如图2所示。 知识主要包括战法艺术类、行动规则类以及对抗经验类等,为宏观AI提供推理决策依据。其中战法艺术类知识主要指高层的作战策略,体现指

文档评论(0)

xlwkyc + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档