基于强化学习的认知无线电网络频谱分配方法研究.pdfVIP

下载本文档

107
0
约10.21万字
约 50页
2020-11-18 发布于江西
举报

基于强化学习的认知无线电网络频谱分配方法研究.pdf

摘要摘要随着移动互联网的快速发展和智能终端技术的不断更新，无线移动用户的数量在过去几年中不断增加。预计这种趋势将在未来几年内会一直持续。考虑到用户数量的蓬勃发展，无线网络的移动流量也将不断增加。为了满足未来移动通信的需求，应不断的提高网络容量。增加容量的有效方法是为无线通信系统分配更多的频谱资源。然而，随着频谱行业的迅速发展，频带已经变得人满为患，但用户对频谱资源的需求却越来越迫切，从而导致频谱变成了一种稀缺资源，因此为网络中的每个用户分配足够的频谱资源是不现实的。另一方面，由于传统的频谱管理策略仍存在一些不足，例如，频带只允许获权的主用户使用，未获权的辅助用户不允许使用该频带，这类问题导致已分配的频谱资源并未得到充分的利用。在这样的背景下，为了缓解这一矛盾，提高频谱的利用率是刻不容缓的，认知无线电技术便应用而生。认知无线电技术以认知能力为核心，并且可以从环境中学习并适应该环境，这为缓解频谱短缺和频谱利用率不足的问题提供了有效的解决方案。在认知无线电网络中，具有自主学习能力的强化学习算法能够更好的解决频谱分配问题，强化学习算法可以为有限马尔可夫决策过程（MDP ）确定最佳策略，该策略用于对不确定性下的动态频谱访问问题进行决策建模。而强化学习中的Q 学习是一种有效的决策模型，因此，基于Q 学习的动态频谱接入技术具有非常重要的研究价值。基于此背景，本文的具体研究内容如下：（1）本文提出了一种改进的基于Q 学习的认知无线电网络频谱资源分配算法。从Q 学习的角度构建数学模型，将认知无线电网络中的多个辅助用户作为多个学习者，而无需事先了解相互的干扰。具体为重新设计了奖励函数功能，其基本原理是在学习过程中对连续正确的行为给予强有力的奖励，而对连续错误行为给予强有力的惩罚。改进的奖励函数可以更好地激发算法的学习潜力，同时该算法更接近实际情况且更加智能和用户友好。此外，平均意见值（Mean Opinion Score ，MOS ）已成为衡量终端用户主观体验质量（QoE ）的广泛使用指标。因此，开发一种基于 MOS 的分布式动态频谱访问（DSA ）方案，在满足主用户（PU ）干扰约束且总MOS 值最大的条件下，可以实现主用户和辅助用户的共存。仿真实验结果表明，与原始的Q 学习算法相比，在MOS 值和平均比特率方面，绝大部分情况下所提出的算法优于原始的Q 学习算法，保证了用户的良好体验质量。（2 ）本文设计了一种基于博弈的Pareto-Q 学习算法（GPQL ），从联合博弈的Q 学习角度出发，构建数学模型，将认知无线电网络中的诸多辅助用户视为学习者，只需利用其历史状态，无需了解各个用户之间相互干扰的先验知识。通过Q 学习，在满足主用户可容忍干扰限制条件下，可以允许主用户和辅助用户以公平的方式共享频谱。由于原始的Q 学习算法效率较低，无法获得更好的频谱资源分配。考虑在进行频谱资源分配时能够采用一种更优的方式，本文将博弈论与Q 学习算法相结合，在研究多个学习者的行为协作方式时，从合作联盟收益的结构分配角度出发，提出一种改进的Pareto-Q 学习算法，该算法以多个 I 摘要学习者的合作联盟理论和马尔可夫博弈理论为基础，在强化学习的基础上，将局部联合最优行为目标视为全局目标，利用每个学习者都能接受的共同利益分配，通过迭代学习的方式将全局目标转化为局部Pareto 联合最优行为目标。同时还引入了 sigmod 函数，使算法具有更好的决策执行能力且能够将Q 表中的值控制在有限范围内，使数据在迭代过程中不易发散。仿真实验结果表明，GPQL 方法在系统吞吐量和系统碰撞率方面均优于原始的Q 学习，因此，这证明基于博弈的Q 学习是可行且有效的。关键词：认知无线电网络，Q 学习，动态频谱接入，奖励函数，博弈论 II Abstract Abs

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

基于强化学习的认知无线电网络频谱分配方法研究.pdfVIP