- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
BP神经网络在短道速滑智能体决策过程中
ir:i
I — i
的应用
摘要:通过人工神经网络,实现了短道速滑仿真系统
摘要:
通过人工神经网络,实现了短道速滑仿真系统
中智能体(age nt )的决策过程。将智能体的当前状态 作为神经网络的输入,智能体要采取的动作作为神经网络的 输出,从而实现智能体的决策。神经网络的训练采用有监督 学习的误差反向传播(Back P r o p a g a t ion) 算法,样本采集自仿真系统运行时使用者的输入。通过所述 方法,能够保证智能体在高速的比赛过程中较少犯规,并可 以达到在体能受限的情况下取得较优秀成绩的目的,还能够 模拟某一特定运动员的滑行特性和决策习惯
关键词:
中图分类号:T P 1 8文献标识码:A文章编号:2
0 9 5 -2163(2011)01 ?0 028 ?05
0引言
短道速滑技战术仿真系统为短道速滑运动员提供一个可
在计算机上进行比赛对抗的平台,以达到对不同战术的可行 性研究以及与国外高水平运动员模拟比赛的目的
在该仿真系统中,智能体的任务就是模拟短道速滑运动 员在比赛中产生类人决策,并与人为控制的运动员进行对 抗,达到使用户体验到与高水平运动员竞技的目标。所以, 智能体决策的优劣直接影响到该系统的仿真性,特别是短道 速滑运动是一种节奏快、速度高、对决策要求准确的体育项 目,更加要求智能体在决策过程中不仅要尽可能地不犯规、 不出错,而且要能够体现出决策的个体差异性,即不同的智 能体在应对同一种情况时产生的决策是不同的。所以,智能 体决策过程首先要保证运动员能够完成比赛;其次,能够实 现不同的运动员在比赛过程中有各自的滑行特性和决策习 惯
对于智能体决策过程的研究思想和方法大致分为四类,
如表1所示。其中,符号主义通过一定的逻辑规则,对特定 的符号信息进行处理;联结主义试图构造类似于人脑活动机 理的网络来模拟智能;演化主义以生物界优胜劣決的进化过 程为参照,通过对编码的类似自然选择的计算来达到智能模 拟;行为主义的目标则是能够建造可自主发挥作用、有生命 周期的计算实体[1]
对于短道速滑仿真系统中的智能体决策,如果采取有限
状态机或者决策树等方法计算智能体的决策,由于受到逻辑 规则的限制,虽然能够通过制定准确的逻辑规则实现智能体 完成比赛的目的,但逻辑规则变更难度大,从而使得:其一, 无法达到不同运动员在决策上的差异性的要求;其二,无法 改进已有的决策过程或生成新的决策方案。而人工神经网络 则不仅可以通过对样本的训练使得智能体能够按照样本的 滑行方式完成比赛,还能够通过不同的运动员拥有不同的神 经网络权值实现决策的差异性;同时,本系统的训练样本可 以通过实际比赛时记录人的操作实现,不仅可以将人的表现 建立到智能体中,还能不断改进已有的决策方案或生成新的 决策方案。多a g e n t系统中的反应式agent允许a gent通过处理当前的瞬时信息获得决策方案,非常符合
短道速滑这种速度高、变化快的体育运动中智能体的设计[2
-3]
因此,本文中智能体的决策过程将行为主义和联结主义 两种智能模拟方法相结合,参考多age nt系统中的反应 式age n t设计智能体的决策模型,使用具有学习能力的 神经网络实现智能体的决策过程。从而让不同的运动员通过 拥有自己的神经网络而体现出差异性,并且在系统的使用 中,神经网络还可以通过用户的使用情况而不断优化
1人工神经网络概述
人工神经网络通过模仿生物神经网络系统的行为特征,
实现了从样例中学习出一种能够从输入向输出映射的函数。
神经网络的本质是通过给定的权值改变规则和训练样本,不 断修正系统中神经元之间的连接强度,直到达到所需精度
反向传播(BP)算法是训练神经网络权值最常用的方
法。该算法利用输岀层误差来估计前导层的误差,并修改前 导层的权值,然后再用前导层的误差估计更前一层的误差并 修改权值,如此下去,就形成了信号从输入层向输出层传播, 而误差则沿反方向逐级向输入层传播的过程[4]。但BP算 法存在收敛速度慢,易陷入局部极小的缺点。由于训练样本 易得,本文采用B P算法来训练神经网络的权值,并引入每
—轮训练之前将样本顺序打乱、根据误差改变量的大小调节 学习速率、增加动量项等方式以避免BP算法陷于局部极小 解[5]
2智能体决策过程的设计
智能体的决策过程就是智能体在一定的输入下,计算出 在当前输入下的一个输出,即为决策
2.1决策过程模型
本文的智能体采用反应式age nt设计[6],如图1所 示。首先,智能体感知周围环境,获得自身状态和周围环境 的情况,然后,根据自己已有的知识存储通过一定的计算方 法对获得的信息进行分析推理,最后将计算结果作为决策输 出
作为智能体决策过程的输入,自身状态与周围环境的输 入不仅要体现出智
文档评论(0)