基于粒子滤波的强化学习算法建模研究.pdf
第 1期 无线互联科技
2017年1月 Internet Technology
基于粒子滤波的强化学习算法建模研究
董春利,王 莉
(南京交通职业技术学院 电子信息工程学院,江苏 南京 211188)
摘 要:文章对基于粒子滤波的强化学习算法进行了建模。该算法通过结合粒子滤波和Q.学习算法,得到一种基于粒子滤波
和强化学习的算法。RLPF继承了粒子滤波的很多优点:实现简单、计算量小、占用内存非常低、能够在策略空间直接进行全
局搜索。
关键词:强化学习;粒子滤波;策略空间;全局搜索
认知无线电的机会频谱接入 (OpportunisticSpectrum 文献[5]利用粒子滤波为一个大规模动态频谱接入系统
Access,OSA)具有认知能力,能感知当前网络条件并且作 进行资源分配。按照每个用户实现的吞吐量,分析了粒子滤
出规划和决策,具有对以前决策的评判和未来决策判定的学 波算法的性能,并将粒子滤波算法与O学习算法进行了性能
习能力。因为OSA系统中的频谱环境总是随时间而变化,因 比较,验证了所提出的粒子滤波算法的有效性。与卡尔曼滤
此在不需要信道环境的先验知识和动态模型的前提下,亟待 波相比,粒子滤波适应于一般情况 (非线性模型,非高斯噪
通过不断与环境进行交互学习,实现优越性能的革新技术出 声,多模态分布)。
现[1J。图1所示为OSA信道选择和接入框架,即CR观测和接 1 强化学习和粒子滤波的联系
入射频环境示意图l2]。 通过做下面的观测,将粒子滤波和强化学习联系起来。
定义参数空间0∈O,把奖励函数R()∈ 看作是粒子滤波
信道选择和接入策略 的一个不恰当的概率密度函数 (IPDF)。即使奖励函数n(o)
出现负值,也可在 中添加一个正的常数L=lintoo (),
奖励 信道选择 空闲/忙 从而得到一个新的非负的奖励函数R ()。R )和 )是同
一 组优化器0 ∈O ,优化 )也会优化 )。
频谱感知 假设 )是粒子滤波的一个IPDF,那么强化学习问题可
从一个新观点重新构建,每次试验r(玎(被看作是从这个未
信道接入 观测 知IPDF的一次独立采样,强化学习可被看作是选择一个有
限数量采样点的一种算法,以此获得IPDF的数值。为了完成
射频环境 强化学习和粒子滤波之问的连接,可简单地通过归一化 (除
以它的积分)将IPDF转换成PDF。
图1CR观测和接入射频环境示意 2 基于粒子滤波的强化学习算法 (RLPF)建模
强化学习作为一种无模型、无监督的在线学习算法,是 定义一个策略粒子p,数组 :(0,f,R,∞),通过运行
解决上述问题的有效途径,近年来已经成为解决OSA问题 强化学习策略 )所『执行的试验 得到粒子p,Oi是策略参数
的主流方法,得到了广泛应用。 值的一个矢量,调节强化学习策略 的行为。策略粒子还存
为了提高全局搜索能力,从而找到全局最优策略,将粒 储着评价这次试验的奖励函数值R:尺 (7rJ))。变量 包含
子滤波引入到机会频谱接入,这是对传统的基于局部搜索 试验期间记录的特殊任务信息,这个信息被奖励函数执行
策略的强化学习算法的明显改善。把强化学习的奖励函数看 它的评
原创力文档

文档评论(0)