erlan(k)bandit抽样过程.pdfVIP

  • 10
  • 0
  • 约6.45万字
  • 约 54页
  • 2015-10-19 发布于贵州
  • 举报
erlan(k)bandit抽样过程

摘要 本文研究的对象是Bandit抽样过程,它包括两个基本模型:Bandit 过程进行了研究,如BernoulliBandit抽样过程和负指数Bandit抽样 过程。本文在Gittins的基础上,利用动态规划向后归纳方法和贝叶 斯方法,研究了目前在实际中应用更广泛的Bandit抽样过程。 本文的主要研究内容如下: 一、对几类特殊Bandit抽样过程的参数的后验分布、抽样值的条 件分布和抽样报酬函数等进行了计算,讨论了它们的单调性质。 程的最优决策问题,构造了计算描述最优选择的平衡值序列的算法, 并研究了过程Gittins指数和平衡值序列的渐近性质,这有效解决了 充和推广。 程的最优决策问题,提出了计算描述最优选择的平衡值序列的算法。 将Bandit目标过程基于的分布从负指数分布推广至Erlang(2)分布, 是对Bandit目标过程的补充和推广。 四、到目前为止,大多数研究Bandit过程的文献没有考虑抽样时 间间隔,均假设一致折扣或几何折扣,并不符合某些实际情况。本文 对考虑实时折扣,抽样时间间隔服从负指数分布,抽样值服从Erlang(2) 分布,允许在任意时刻跳转的Bandit报酬过程进行推导和计算,讨论 了过程Gittins指数的单调性质,构造了

文档评论(0)

1亿VIP精品文档

相关文档