基于强化学习理论的网络拥塞控制算法研究.pptVIP

基于强化学习理论的网络拥塞控制算法研究.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于强化学习理论的网络拥塞控制算法研究

基于模拟退火的ASN参数学习 研究多种资源的联合分配; 研究多种不同的数据流如何公平地享用带宽; 区分服务网络的控制是下一步将要研究的课题。 基于控制理论的方法解决无线网络的拥塞控制问题。 为每个状态-动作对分配一个Q-函数值,作为动作选择的依据 图4.1 Q-函数值表 (4.8) Q-函数值的更新迭代过程如下 4 基于Metropolis规则的Q-学习AQM控制器的设计 针对多瓶颈网络,学习过程中采用合作奖赏值 (4.14) (1) 初始化 策略 学习过程 基于Metropolis规则的动作选择策略 搜索(exploration) 利用(exploitation) 动作选择策略 (2) 依据 策略选择动作 基于Metropolis规则的策略 (3) 随机选择动作 4 基于Metropolis规则的Q-学习AQM控制器的设计 (5) 执行 ,网络状态 ,得到奖赏值r (4.11) (4) 如果 ,则 如果 ,则计算概率 则 (6) 计算学习率,更新Q-函数值与可信度值 (7) 检查拥塞是否发生 (8) 更新Metropolis规则控制参数T (9) 检查算法结束条件 4 基于Metropolis规则的Q-学习AQM控制器的设计 状态空间变换 图4.2 状态空间变换 4 基于Metropolis规则的Q-学习AQM控制器的设计 系统仿真 图4.3 网络性能随负载变化仿真结果 单瓶颈仿真实验1:网络负载在0.6~1.2之间变化 4 基于Metropolis规则的Q-学习AQM控制器的设计 图4.4 缓冲队列仿真结果 单瓶颈仿真实验2:网络中源端始终有足够多数据待发送 4 基于Metropolis规则的Q-学习AQM控制器的设计 图4.5 平均吞吐量随负载变化仿真结果 多瓶颈仿真实验:网络负载在0.6~1.2之间变化 4 基于Metropolis规则的Q-学习AQM控制器的设计 图4.6 平均丢弃概率随负载变化仿真结果 图4.7 平均时延随负载变化仿真结果 4 基于Metropolis规则的Q-学习AQM控制器的设计 小结 本章基于Q-学习方法在网络模型未知的情况下设计了TCP网络AQM控制器; 基于Metropolis规则改进了动作选择策略,实现了搜索和利用策略的平衡; 利用状态空间变换的方法缩减了状态空间的规模; 基于合作奖赏值将应用于多瓶颈网络。 4 基于Metropolis规则的Q-学习AQM控制器的设计 输入:TCP网络的状态 ,对各状态进行模糊化处理 图5.1 模糊集合的隶属函数 输出:数据包丢弃概率p 控制器的设计 5 基于遗传算法的模糊Q-学习AQM控制器的设计 (5.10) 模糊Q-学习中学习单元的模糊规则定义如下 对于网络状态 ,在第i条模糊规则中,依据动作选择策略选择动作 5 基于遗传算法的模糊Q-学习AQM控制器的设计 奖赏值r仍取为式(4.2)的形式 (5.11) 通过模糊推理得到全局丢弃概率 (5.12) 状态-动作对 所对应的Q-函数值为 (5.13) 令 对应着最大的参数q,则 为 5 基于遗传算法的模糊Q-学习AQM控制器的设计 参数q的学习更新过程如下 (5.16) (5.17) 参数q的变化量计算如下 (5.15) 学习过程中,奖赏值r用于计算Q-函数值的变化量 5 基于遗传算法的模糊Q-学习AQM控制器的设计 遗传算法参数寻优的主要过程如下 (1) 编码:对模糊规则后件部分的权值 采用二进制编码 (2) 个体适应度评价 (5.21) (5.20) 适应度函数的值通过Widrow-Hoff规则调节如下 采用参数q的变化量 作为适应度函数计算的依据,定义 基于遗传算法的参数寻优 5 基于遗传算法的模糊Q-学习AQM控制器的设计 (3) 遗传操作算子设计:选择,交叉,变异 (5.22) 选择:采用比例选择法 (5.23) 交叉:采用线性变化的交叉概率 (5.24) 变异:采用线性变化的变异概率 5 基于遗传算法的模糊Q-学习AQM控制器的设计 系统仿真 图5.2 网络性能随负载变化仿真结果 仿真实验1:网络负载在0.6~1.2之间变化 5 基于遗传算法的模糊Q-学习AQM控制器的设计 图5.3 缓冲队列仿真结果

文档评论(0)

118books + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档