基于粒子滤波的强化学习算法建模研究.pdf

下载文档 降价啦

26
0
约9.01千字
约 3页
2017-06-04 发布于天津
举报
保障服务

基于粒子滤波的强化学习算法建模研究.pdf

第 1期无线互联科技 2017年1月 Internet Technology 基于粒子滤波的强化学习算法建模研究董春利，王莉 (南京交通职业技术学院电子信息工程学院，江苏南京 211188) 摘要：文章对基于粒子滤波的强化学习算法进行了建模。该算法通过结合粒子滤波和Q．学习算法，得到一种基于粒子滤波和强化学习的算法。RLPF继承了粒子滤波的很多优点：实现简单、计算量小、占用内存非常低、能够在策略空间直接进行全局搜索。关键词：强化学习；粒子滤波；策略空间；全局搜索认知无线电的机会频谱接入 (OpportunisticSpectrum 文献[5]利用粒子滤波为一个大规模动态频谱接入系统 Access，OSA)具有认知能力，能感知当前网络条件并且作进行资源分配。按照每个用户实现的吞吐量，分析了粒子滤出规划和决策，具有对以前决策的评判和未来决策判定的学波算法的性能，并将粒子滤波算法与O学习算法进行了性能习能力。因为OSA系统中的频谱环境总是随时间而变化，因比较，验证了所提出的粒子滤波算法的有效性。与卡尔曼滤此在不需要信道环境的先验知识和动态模型的前提下，亟待波相比，粒子滤波适应于一般情况 (非线性模型，非高斯噪通过不断与环境进行交互学习，实现优越性能的革新技术出声，多模态分布)。现[1J。图1所示为OSA信道选择和接入框架，即CR观测和接 1 强化学习和粒子滤波的联系入射频环境示意图l2]。通过做下面的观测，将粒子滤波和强化学习联系起来。定义参数空间0∈O，把奖励函数R()∈ 看作是粒子滤波信道选择和接入策略的一个不恰当的概率密度函数 (IPDF)。即使奖励函数n(o) 出现负值，也可在中添加一个正的常数L=lintoo ()，奖励信道选择空闲／忙从而得到一个新的非负的奖励函数R ()。R )和 )是同一组优化器0 ∈O ，优化 )也会优化 )。频谱感知假设 )是粒子滤波的一个IPDF，那么强化学习问题可从一个新观点重新构建，每次试验r(玎(被看作是从这个未信道接入观测知IPDF的一次独立采样，强化学习可被看作是选择一个有限数量采样点的一种算法，以此获得IPDF的数值。为了完成射频环境强化学习和粒子滤波之问的连接，可简单地通过归一化 (除以它的积分)将IPDF转换成PDF。图1CR观测和接入射频环境示意 2 基于粒子滤波的强化学习算法 (RLPF)建模强化学习作为一种无模型、无监督的在线学习算法，是定义一个策略粒子p，数组：(0，f，R，∞)，通过运行解决上述问题的有效途径，近年来已经成为解决OSA问题强化学习策略 )所『执行的试验得到粒子p，Oi是策略参数的主流方法，得到了广泛应用。值的一个矢量，调节强化学习策略的行为。策略粒子还存为了提高全局搜索能力，从而找到全局最优策略，将粒储着评价这次试验的奖励函数值R：尺 (7rJ))。变量包含子滤波引入到机会频谱接入，这是对传统的基于局部搜索试验期间记录的特殊任务信息，这个信息被奖励函数执行策略的强化学习算法的明显改善。把强化学习的奖励函数看它的评

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于粒子滤波的强化学习算法建模研究.pdf