动态博弈的Dijkstra算法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
动态博弈的Dijkstra算法

动态博弈的Dijkstra算法 摘要 我们研究博弈方1知道博弈方2的选择的确定性转换的零和动态博弈,博弈过程中,博弈方的决策和转换是随机的,并且取决于他们的行为和状态(形式)。博弈方1的目的是为了达到一个最终的结果,并且尽量减少博弈次数和最终的成本。我们提出并分析了一种算法,用来计算这些博弈的价值功能 ,在图解上用最短的路径扩展Dijkstra算法 介绍 本文中,我们研究博弈方在状态空间X移动状态变量的零和动态博弈,他们的一个贴现成本取决于他们的位置和行动。博弈方1目的是达到一个给定的最终集Xf,一旦着实现了博弈就结束并且最终的成本也会分配。这些博弈是Shapley介绍的传统零和随机博弈中特殊的例子,并且和递归博弈相关。除其他结果外,本文包括了贴现价值功能。我们的假设是设计来弥补广义追逃微分博弈的离散近似,见调查5和参考文献。相关的问题在最近研究的可达性博弈[1],同时提供了一些数值算法。我们的目的是提供一个有效的算法来计算该价值。 几种算法已经被提出来,在有限的情况下(有限状态空间和有限状态集),用于计算在随机博弈的价值函数 最经典的,可以追溯到Shapley的价值迭代:在开创性的论文[21],一个递推公式成立,并且贴现动态博弈的价值是一个压缩算子唯一固定的不动点,其迭代收敛。几个这种思想的变型已被提出,用于加速收敛,参见例子调查[13],该最近文献[18]和其中的参考文献,以及[16]其中一个高斯 - 塞德尔的方法对价值迭代进行了研究。 我们的做法,相反,是由Dijkstra算法[11]在有限的图表中寻找最短路径的启发 ,已运行时间为O(e+ v logv)假设有一个合适的数据结构,其中v; e分别是顶点和边的数目。我们参考文献[14]的详细信息。与此相反的值迭代, 我们提出的算法更新的近似值功能只有在近邻且其中的值已经计算了的点,从而减少了计算时间,并且聚集在有限的步骤内。 我们最初的动力来自所谓的“快速行进法”(Fast Marching Methods(briey,FMM),在确定性控制和前传播问题所产生的凸哈密顿量的Hamilton - Jacobi方程, 在[23,19]介绍和文献[20]有介绍,也见其中的参考文献。这些数值方法,也称为单通,近似的时间最优控制在伴随着网格上的一个完全离散优化问题的连续的时间和空间里, 然后依靠经典的Dijkstra算法为离散近似得出一个有效的解决方案 。我们记得,基于动态规划的方法有几个不错的性能,且特别是稳健的,但他们面对的著名的“魔咒维”。在过去二十年的大量研究,专门进行克服这一难题,并且FMM的积极成本为此问题发挥着重要作用(参见 [17,10]和其中的其他方法的参考文献)。 最近,各种形式的FMM也被用于解决,一些在不同博弈[15,10,8]中出现的Hamilton-Jacobi-Isaacs方程式 中可能的应用的稳定扰动系统和前传播的非凸哈密顿问题。他们结合连续的在网格上离散博弈的问题。然而,到目前为止,没有理论的正当的理由使用Dijkstra算法类型的算法,例如离散动态博弈。 本文的一个目标是为这些方法提供一个严格的基础。 模型 设X是一个属于欧式空间的有限集,我们称之为状态空间。设A、B是博弈方选择策略的有限集。一个函数S:X定义的轨迹为,通过递归 设 ,表示一个终点集(博弈方1希望达到的),设,为贴现因子。我们引进的运行和终端成本: 另外定义到达的时间 其中Xn是方程(1)对应于控制序列的轨迹,为了减轻符号,在无混淆的情况下,我们经常用代替,然后得到我们的总成本函数 观察到当; 时,成本是有限值; 时,成本趋向正无穷 当博弈方1选择,博弈方2选择,博弈方1的目标是使成本函数最小化,而博弈方2的目标恰恰相反。 我们假设两个博弈方都可以观察到互相的行为和状态X。我们把 作为我们的博弈,然后我们可以思考博弈的两个模型:交替行动和同时行动。 交替行动 3.1低价值函数 我们认为这部分的情况,博弈方1在每一次知道博弈方2的行为,这是相关的,例如,在一个微分博弈的低价值的离散中,或者在一个离散的粗鲁控制的问题中,此时博弈方2代表一种干扰。 (定义1:A map是一个未预期的策略对于博弈方1) 用A表示博弈方1的未预期的策略集,完全类似的,定义B表示博弈方2的未预期策略集。这使我们引进较低值函数 注意:此定义中的上下确界是在行为和状态空间有限的情况下获得的,以下结果来自熟悉的参数,例如见[2,第8章,定理 3.18]。 命题2:较低值得函数满足 第一个等式(4)是众所周知的动态规划特性。在式(4)中使k=1可以容易证明(5)。最后的一个等式(6)直接从

文档评论(0)

sd7f8dgh + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档