在线交互神经演化.docVIP

下载本文档

0
0
约5.93千字
约 7页
2019-12-23 发布于湖北
举报
版权申诉

在线交互神经演化.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

在线交互神经的演化亚德里恩·阿戈吉诺(agogino@) 肯尼思·斯坦利(kstanley@) 里斯托·米库莱伦(risto@) 美国德克萨斯大学奥斯汀分校计算机科学系摘要在标准的神经演化过程中，一系列网络系统在任务操作的时候得到进化，其中最能解该决任务的网络系统由此被发现。该网络系统在受到改进之后被应用于解决将来出现的问题。在这种方式下演化而来的网络系统并不能很好地对实时互动进行操作。要想提前形成一种既能有效应用于未来任何环境中又能有效应用于任何互动方式中的解决方案是很难得。本文提议推进在线前馈神经网络，创建能够提高他们实时互动性能的服务器。这种方法已经在一个游戏世界中得到验证；在该游戏中，人类的对手是由神经网络控制的个体。通过进化，这些个体学会了对不同对手做出反应，并会恰当考虑到互斥目标。该个体一开始是脱线进化，然后是在线进化，由此它的性能得到了很到程度的提高。该个体不但能适应对手不断改变策略的小说环境以及游戏布局，还能在曾经在脱线训练中出现的情境中提高性能。本文将描述在线进化的一个工具，并说明这是个有效地方法，其性能优于仅由脱线进化而来的性能。引文遗传演算法与神经网络是一个强大的组合，该组合在过去已经成功地使用于许多应用领域中。例如，多种神经进化方法已经被应用于各种棋盘游戏中，如黑白棋、围棋和西洋双陆棋（3；7；10）。同时，随机动态属性任务也成功得到了进化，如觅食，放牧，通信和捕获猎物（2；7；11）。在此以前的所有工作中，网络系统是脱线进化的。在每一代中，个体们先进行一回合游戏，然后就得到了进化。接下来的一代个体是在前一代游戏过程中表现好的个体中创造而来的。在进行了很多回合的游戏以及多次的进化之后，一些技术娴熟的个体变脱颖而出。虽然已证实脱线神经进化在棋盘游戏以及动态属性环境中是有用的，却很少被应用于实时互动的环境中。现在的主要问题是在这些领域中，好的性能要能适应在线对手以及不断改变的环境。例如，在线进化的战术单位能让军事模拟在迅速变化及不可预测的环境中更加真实。机械控制可以在线进化为一个机器人，尝试着适应新的环境以及应付突发问题，如传感失败。在线控制中最棒的一个例子就是在实时游戏中的例子。在这个例子中，对手不断地改变策略，环境不断地给出新的挑战。在游戏的每一回合中，网络系统必须在不断地评估和改变中作出调整。当进化发生在系统运转的时候，很少系统能够建立。其中我们所尝试的一个领域就是帮助机器人在迷宫中航行。在这个实验中，当机器人尝试在它从未见过的迷宫中航行的时候，网络群体得到了进化。机器人能够有效地学会在迷宫中航行需要花费很长的时间。这是很多领域所不能接受的，如在实时游戏中，运算必须要随着具体的实时对手做出调整。其他的关于由机器人所控制的进化的实验也在脱线中进行了。图1：A. 游戏设计。士卒从基地出发，避开敌人寻找金矿。B. 智能行为开始的演示：士卒们向金矿前进，此金矿及其附近没有敌人防守。接下来士卒们将展示更多的复杂行为。更多关于这个过程的演示请登录此网站： /users/nn/pages/research/neuroevolution.html 本文以实时游戏的典范作为平台，展示在线进化的方法。以此证明一个群体能够在线进化，该群体首先对其个体进行排名，并周期性地把排名靠后的个体淘汰，用下一代中排名靠前的个体替代。对个体在实时应用中功能的恰当评估保持了排名的及时更新。接下来，我们首先描述游戏方案和评估办法，然后把在线进化与脱线进化进行详细对比。游戏为了在互动环境中展开在线进化的步骤，我们首先进行一个小游戏，该游戏灵感来源于由电脑游戏软件公司暴雪娱乐所开发的流行电脑游戏魔兽争霸2。在这个小游戏中，有两个角色：一个角色是由人脑控制的，为敌方；另一个角色是由电脑控制的，为士卒。该游戏由星球、基地、金矿、敌方以及一个士卒团组成（见图一A）。一共有30个士卒，他们的出发点全都设计在一个孤岛基地上。士卒们的目标就是尽可能快地找到其中的一个金矿，并且不被敌方杀死，而敌方的的占据地是由人脑控制的。如果士卒被敌方接触到，则死亡。一旦士卒找到了一个金矿，它就迅速返回基地，开始新的旅程。在魔兽争霸中，士卒们只由简单的运算法则控制着，而这些运算法则很容易攻破，从而让士卒失去战斗力。无论安全还是危险，士卒们倾向于向最近的金矿前进。而在我们的游戏中，士卒们是由神经网络控制的，通过进化，它们具有更复杂的能力去寻找金矿和对敌方作出反应。在靠近但是有敌人防守的金矿和偏远但是没有敌人防守的金矿之间，士卒们能够估计两者的风险，并作出避开敌人的策略（图1B）。网络构造每一个士卒都配有前馈神经网络，这个神经网络能告诉士卒在游戏中的每一步该怎么走（图2 A）。该网络并不是周期性的，这意味着士卒个体们对先前的活动和感觉并不