第3章一些著名球队的Agent结构以及MAS.docVIP

下载本文档

1
0
约4.94千字
约 7页
2017-10-07 发布于重庆
举报
版权申诉

第3章一些著名球队的Agent结构以及MAS.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第3章一些著名球队的Agent结构以及MAS

第三章一些著名球队的Agent 结构以及MAS 在开始我们的Robocup机器人仿真组程序的研究以后，我们查阅了大量的相关资料，研究了从99年来在robocup仿真组获得了不错成绩的球队的综述报告及相关文档，他们包括99年冠军CMU、2000年冠军FC Portugal、2001、2002年的Tsinghuaeolus、以及包括Karlsruhe Brainstrormers、UVA-Trilearn等等球队。下面就把了解到的相关球队的工作一一说明。 3.1CMU CMU是美国卡耐基梅隆大学的一支球队，曾获得了robocup98、99仿真组的冠军。这支球队的主要设计人Peter Stone在他的博士论文《Layered learning in Mutli_agent System》中详细的描述了这支球队。首先,我们给出CMU的Agent结构，如图3.1：图3.1 CMU的Agent结构图这个结构可以感知环境，能够对当前的环境做出分析，最后向Server发送经过决策的动作。 Real World：Server表示的世界状态。 World State：agent内部可识别的世界状态。从Real World到World State需要进行解析。 Locker-room Agreement：用于Agent的同步，并定义了球队进行协作的机构以及Agent之间的通讯协议。它仅能够被Internal Behaviors访问。 Internal State：存储了Agent的一些内部变量。可以存储Agent以前或当前时刻的世界状态。 Internal Behaviors：根据当前的世界状态、内部状态、球队协议（Locker-room Agreement）来更新Agent的内部状态的内部动作。 External Behaviors：根据世界状态以及更新后的内部状态来做出一个动作送给动作器以作用于真实世界（Real World）。同时回送给Agent进行预测。从根本上讲，CMU的Agent是通过行为/条件（B/C）对来进行外部动作的输出的，我们可以通过图3.2得出。图3.2 CMU的BC树 CMU留给我们的还不只是这些，Peter Stone在他的博士论文中，提出了关于在MAS中各个Agent为达到一个目标是如何进行协调和学习的，Peter 提出了分层学习的方法。在这方面也做一个简要介绍：第一层，进行Agent个体基本技术的学习。典型的例子就是进行断球的学习，通过神经网络的方法，对在不同的场景下学习断球。第二层，Agent同另外一个Agent之间的协同学习。典型的例子是进行传球的学习，如在球场上Agent当前在控球，并且做出了决策要就进行传球给一个特定的队友，这时它必须学习一个合适的方向和传球速度。在该层它可以调用第一层已经学习过的基本技术。这通过构造决策树的方法，求出相应的节点值，构造出一个分类器。典型的算法是C4.5决策树算法。第三层，Agent同其他多个Agent之间进行的球队策略学习。比较典型的例子是进行传球对象的选择，如在球场上Agent当前在控球，这时它要选择把球传给哪个队友。在学习本层的时候，也认为第二层已经学习过了，这时它要考虑时传给哪个队友的利益大。主要是通过TPOT-RL(Team-Partitioned Opaque-Transition Reinforcement Learning)来进行学习。 3.2 FC Portugal FC Portugal由葡萄牙的里斯本大学和波尔图大学合作完成的一支球队。它是在CMUnited99公开的底层源代码的基础上，对多智能体的合作方面做出了巨大的贡献（在这之前，Robocup仿真参赛队的阵型以及战位都很混乱）。具体来说，FC Portugal在球队策略、战术、阵型、球员类型、站位机制以及角色的动态转换机制等方面都有自己的特点。 FC Portugal的agent的主要控制循环是使用感知解释和动作预测来更新世界模型，其结构如图3.2，然后使用高层决策模型来决定下一步的动作。FC Portugal的信息模型是一个四层结构的数据模型：图3.3 Agent结构和高层决策模型的控制流程全局形势信息－高层信息比如比分、时间、比赛策略（射门，成功传球，控球等）和对方行为，用来确定每一时刻的战术；形势信息－与阵型选择相关的信息，和SBSP，SLM和ADVCOM机制相关的信息；动作选择信息－一套高层参数，用来确定动态形势，选择适当的控球或开球行为；世界状态－底层信息，包括球员和足球的位置和速度。 CMUnited提出了阵型和站位的概念，并且根据比赛结果和剩余时间动态改变阵型；FC Portugal扩展了这些概念，并提出了战术和球员类型。FC Portuga