基于强化学习的认知无线电网络频谱分配方法研究.pdfVIP

  • 107
  • 0
  • 约10.21万字
  • 约 50页
  • 2020-11-18 发布于江西
  • 举报

基于强化学习的认知无线电网络频谱分配方法研究.pdf

摘要 摘 要 随着移动互联网的快速发展和智能终端技术的不断更新,无线移动用户的数量在过去 几年中不断增加。预计这种趋势将在未来几年内会一直持续。考虑到用户数量的蓬勃发展, 无线网络的移动流量也将不断增加。为了满足未来移动通信的需求,应不断的提高网络容 量。增加容量的有效方法是为无线通信系统分配更多的频谱资源。然而,随着频谱行业的 迅速发展,频带已经变得人满为患,但用户对频谱资源的需求却越来越迫切,从而导致频 谱变成了一种稀缺资源,因此为网络中的每个用户分配足够的频谱资源是不现实的。另一 方面,由于传统的频谱管理策略仍存在一些不足,例如,频带只允许获权的主用户使用, 未获权的辅助用户不允许使用该频带,这类问题导致已分配的频谱资源并未得到充分的利 用。在这样的背景下,为了缓解这一矛盾,提高频谱的利用率是刻不容缓的,认知无线电 技术便应用而生。认知无线电技术以认知能力为核心,并且可以从环境中学习并适应该环 境,这为缓解频谱短缺和频谱利用率不足的问题提供了有效的解决方案。在认知无线电网 络中,具有自主学习能力的强化学习算法能够更好的解决频谱分配问题,强化学习算法可 以为有限马尔可夫决策过程(MDP )确定最佳策略,该策略用于对不确定性下的动态频谱 访问问题进行决策建模。而强化学习中的Q 学习是一种有效的决策模型,因此,基于Q 学 习的动态频谱接入技术具有非常重要的研究价值。基于此背景,本文的具体研究内容如下: (1)本文提出了一种改进的基于Q 学习的认知无线电网络频谱资源分配算法。从Q 学习的角度构建数学模型,将认知无线电网络中的多个辅助用户作为多个学习者,而无需 事先了解相互的干扰。具体为重新设计了奖励函数功能,其基本原理是在学习过程中对连 续正确的行为给予强有力的奖励,而对连续错误行为给予强有力的惩罚。改进的奖励函数 可以更好地激发算法的学习潜力,同时该算法更接近实际情况且更加智能和用户友好。此 外,平均意见值 (Mean Opinion Score ,MOS )已成为衡量终端用户主观体验质量(QoE ) 的广泛使用指标。因此,开发一种基于 MOS 的分布式动态频谱访问(DSA )方案,在满 足主用户(PU )干扰约束且总MOS 值最大的条件下,可以实现主用户和辅助用户的共存。 仿真实验结果表明,与原始的Q 学习算法相比,在MOS 值和平均比特率方面,绝大部分 情况下所提出的算法优于原始的Q 学习算法,保证了用户的良好体验质量。 (2 )本文设计了一种基于博弈的Pareto-Q 学习算法(GPQL ),从联合博弈的Q 学习 角度出发,构建数学模型,将认知无线电网络中的诸多辅助用户视为学习者,只需利用其 历史状态,无需了解各个用户之间相互干扰的先验知识。通过Q 学习,在满足主用户可容 忍干扰限制条件下,可以允许主用户和辅助用户以公平的方式共享频谱。由于原始的Q 学 习算法效率较低,无法获得更好的频谱资源分配。考虑在进行频谱资源分配时能够采用一 种更优的方式,本文将博弈论与Q 学习算法相结合,在研究多个学习者的行为协作方式时, 从合作联盟收益的结构分配角度出发,提出一种改进的Pareto-Q 学习算法,该算法以多个 I 摘要 学习者的合作联盟理论和马尔可夫博弈理论为基础,在强化学习的基础上,将局部联合最 优行为目标视为全局目标,利用每个学习者都能接受的共同利益分配,通过迭代学习的方 式将全局目标转化为局部Pareto 联合最优行为目标。同时还引入了 sigmod 函数,使算法 具有更好的决策执行能力且能够将Q 表中的值控制在有限范围内,使数据在迭代过程中不 易发散。仿真实验结果表明,GPQL 方法在系统吞吐量和系统碰撞率方面均优于原始的Q 学习,因此,这证明基于博弈的Q 学习是可行且有效的。 关键词:认知无线电网络,Q 学习,动态频谱接入,奖励函数,博弈论 II Abstract Abs

文档评论(0)

1亿VIP精品文档

相关文档