BP神经网络在短道速滑智能体决策过程中应用.doc

下载文档 降价啦

2
0
约6.94千字
约 14页
2017-06-29 发布于福建
举报
版权申诉
保障服务

BP神经网络在短道速滑智能体决策过程中应用.doc

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

BP神经网络在短道速滑智能体决策过程中应用

BP神经网络在短道速滑智能体决策过程中应用摘要：通过人工神经网络，实现了短道速滑仿真系统中智能体（ａｇｅｎｔ）的决策过程。将智能体的当前状态作为神经网络的输入，智能体要采取的动作作为神经网络的输出，从而实现智能体的决策。神经网络的训练采用有监督学习的误差反向传播（ＢａｃｋＰｒｏｐａｇａｔｉｏｎ）算法，样本采集自仿真系统运行时使用者的输入。通过所述方法，能够保证智能体在高速的比赛过程中较少犯规，并可以达到在体能受限的情况下取得较优秀成绩的目的，还能够模拟某一特定运动员的滑行特性和决策习惯关键词：中图分类号：ＴＰ１８文献标识码：Ａ文章编号：２０９５－２１６３（２０１１）０１－００２８－０５０引言短道速滑技战术仿真系统为短道速滑运动员提供一个可在计算机上进行比赛对抗的平台，以达到对不同战术的可行性研究以及与国外高水平运动员模拟比赛的目的在该仿真系统中，智能体的任务就是模拟短道速滑运动员在比赛中产生类人决策，并与人为控制的运动员进行对抗，达到使用户体验到与高水平运动员竞技的目标。所以，智能体决策的优劣直接影响到该系统的仿真性，特别是短道速滑运动是一种节奏快、速度高、对决策要求准确的体育项目，更加要求智能体在决策过程中不仅要尽可能地不犯规、不出错，而且要能够体现出决策的个体差异性，即不同的智能体在应对同一种情况时产生的决策是不同的。所以，智能体决策过程首先要保证运动员能够完成比赛；其次，能够实现不同的运动员在比赛过程中有各自的滑行特性和决策习惯对于智能体决策过程的研究思想和方法大致分为四类，如表１所示。其中，符号主义通过一定的逻辑规则，对特定的符号信息进行处理；联结主义试图构造类似于人脑活动机理的网络来模拟智能；演化主义以生物界优胜劣汰的进化过程为参照，通过对编码的类似自然选择的计算来达到智能模拟；行为主义的目标则是能够建造可自主发挥作用、有生命周期的计算实体[１] 对于短道速滑仿真系统中的智能体决策，如果采取有限状态机或者决策树等方法计算智能体的决策，由于受到逻辑规则的限制，虽然能够通过制定准确的逻辑规则实现智能体完成比赛的目的，但逻辑规则变更难度大，从而使得：其一，无法达到不同运动员在决策上的差异性的要求；其二，无法改进已有的决策过程或生成新的决策方案。而人工神经网络则不仅可以通过对样本的训练使得智能体能够按照样本的滑行方式完成比赛，还能够通过不同的运动员拥有不同的神经网络权值实现决策的差异性；同时，本系统的训练样本可以通过实际比赛时记录人的操作实现，不仅可以将人的表现建立到智能体中，还能不断改进已有的决策方案或生成新的决策方案。多ａｇｅｎｔ系统中的反应式ａｇｅｎｔ允许ａｇｅｎｔ通过处理当前的瞬时信息获得决策方案，非常符合短道速滑这种速度高、变化快的体育运动中智能体的设计[２－３] 因此，本文中智能体的决策过程将行为主义和联结主义两种智能模拟方法相结合，参考多ａｇｅｎｔ系统中的反应式ａｇｅｎｔ设计智能体的决策模型，使用具有学习能力的神经网络实现智能体的决策过程。从而让不同的运动员通过拥有自己的神经网络而体现出差异性，并且在系统的使用中，神经网络还可以通过用户的使用情况而不断优化１人工神经网络概述人工神经网络通过模仿生物神经网络系统的行为特征，实现了从样例中学习出一种能够从输入向输出映射的函数。神经网络的本质是通过给定的权值改变规则和训练样本，不断修正系统中神经元之间的连接强度，直到达到所需精度反向传播（ＢＰ）算法是训练神经网络权值最常用的方法。该算法利用输出层误差来估计前导层的误差，并修改前导层的权值，然后再用前导层的误差估计更前一层的误差并修改权值，如此下去，就形成了信号从输入层向输出层传播，而误差则沿反方向逐级向输入层传播的过程[４]。但ＢＰ算法存在收敛速度慢，易陷入局部极小的缺点。由于训练样本易得，本文采用ＢＰ算法来训练神经网络的权值，并引入每一轮训练之前将样本顺序打乱、根据误差改变量的大小调节学习速率、增加动量项等方式以避免ＢＰ算法陷于局部极小解[５] ２智能体决策过程的设计智能体的决策过程就是智能体在一定的输入下，计算出在当前输入下的一个输出，即为决策２．１决策过程模型本文的智能体采用反应式ａｇｅｎｔ设计[６]，如图１所示。首先，智能体感知周围环境，获得自身状态和周围环境的情况，然后，根据自己已有的知识存储通过一定的计算方法对获得的信息进行分析推理，最后将计算结果作为决策输出作为智能体决策过程的输入，自身状态与周围环境的输入不仅要体现出智能体当前的特性、具有较高的区分度，还要尽可能地简化，使智能体可能处于的状态不至于因为太多而使系统的性能下降。对于短道速滑比赛中的智能体，输入内容主要包括自身状态和前方运动员情况两