erlan（k）bandit抽样过程.pdfVIP

下载本文档

10
0
约6.45万字
约 54页
2015-10-19 发布于贵州
举报

erlan（k）bandit抽样过程.pdf

erlan（k）bandit抽样过程

摘要本文研究的对象是Bandit抽样过程，它包括两个基本模型：Bandit 过程进行了研究，如BernoulliBandit抽样过程和负指数Bandit抽样过程。本文在Gittins的基础上，利用动态规划向后归纳方法和贝叶斯方法，研究了目前在实际中应用更广泛的Bandit抽样过程。本文的主要研究内容如下：一、对几类特殊Bandit抽样过程的参数的后验分布、抽样值的条件分布和抽样报酬函数等进行了计算，讨论了它们的单调性质。程的最优决策问题，构造了计算描述最优选择的平衡值序列的算法，并研究了过程Gittins指数和平衡值序列的渐近性质，这有效解决了充和推广。程的最优决策问题，提出了计算描述最优选择的平衡值序列的算法。将Bandit目标过程基于的分布从负指数分布推广至Erlang(2)分布，是对Bandit目标过程的补充和推广。四、到目前为止，大多数研究Bandit过程的文献没有考虑抽样时间间隔，均假设一致折扣或几何折扣，并不符合某些实际情况。本文对考虑实时折扣，抽样时间间隔服从负指数分布，抽样值服从Erlang(2) 分布，允许在任意时刻跳转的Bandit报酬过程进行推导和计算，讨论了过程Gittins指数的单调性质，构造了

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

erlan（k）bandit抽样过程.pdfVIP