基于强化学习理论的网络拥塞控制算法研究.ppt

基于强化学习理论的网络拥塞控制算法研究.ppt

  1. 1、本文档共45页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
研究路由器中多种资源的联合分配; 研究多种不同的数据流如何公平地享用带宽; 区分服务网络的控制是下一步将要研究的课题。 如何解决无线网络的拥塞控制问题。 系统仿真 图5.1 网络性能随负载变化仿真结果 (a) 吞吐量 (b) 丢弃概率 (c) 传输时延 5 基于遗传算法的模糊Q-学习AQM控制器的设计 (a) (b) (c) 系统仿真 5 基于遗传算法的模糊Q-学习AQM控制器的设计 图5.3 本章算法缓冲队列仿真结果 图5.2 上一章算法缓冲队列仿真结果 小结 利用模糊推理实现了对连续状态空间的描述,使控制效果更加精确; 利用参数q的变化量计算适应度函数,基于遗传算法改进了动作选择策略。 5 基于遗传算法的模糊Q-学习AQM控制器的设计 6 基于价格机制的Nash Q-学习流量控制器的设计 合作用户:均分网络资源 非合作用户:竞争网络资源 图6.1 收益函数性质 (6.1) 定义第i个用户的奖赏函数为 (6.2) 为用户i以速率 发送数据所获得的收益,定义为 基于价格机制的奖赏函数设计 图6.2 价格策略函数曲线 6 基于价格机制的Nash Q-学习流量控制器的设计 控制器的设计 6 基于价格机制的Nash Q-学习流量控制器的设计 :有限的状态集,即网络的状态 的集合; :有限的动作集,即第i个用户发送速率 的集合,这里取为 ; :第i个用户获得的即时奖赏值。 (6.9) 为了实现用户个体收益与网络整体性能之间的平衡,将Nash平衡思想引入到Q-函数值的学习过程中,用户i的Q-函数值更新如下 6 基于价格机制的Nash Q-学习流量控制器的设计 参数选择为 (6.15) 为了扩展搜索空间,利用 和 产生随机控制量 ,其概率密度函数为 (6.16) 系统仿真 图6.3 缓冲队列仿真结果 图6.4 各用户发送速率选择概率仿真结果 6 基于价格机制的Nash Q-学习流量控制器的设计 小结 基于价格机制设计了奖赏函数; 学习过程中基于Nash平衡思想,实现了用户个体收益与网络整体性能之间的平衡。 6 基于价格机制的Nash Q-学习流量控制器的设计 7 基于Q-学习的路由算法 基于记忆的Q-学习路由算法 在学习过程中定义 :路径 所对应的Q-函数值 :路径 所对应的Q-函数值曾经获得的最优值 :路径 的恢复速率 :路径 所对应的Q-函数值上次更新的时间 (7.26) 路径 所对应的Q-函数值更新如下 发生拥塞的路径 重新被选择 恢复 7 基于Q-学习的路由算法 (7.27) 路径 所对应的Q-函数值的最优值为 (7.29) 如果 ,则路径 的恢复速率为 (7.28) (7.30) 如果 ,则路径 的恢复速率为 (7.32) 路径 的路由选择依据为 7 基于Q-学习的路由算法 系统仿真 图7.1 平均传输时延仿真结果 图7.2 传输时延抖动仿真结果 小结 通过Q-学习实现路由选择; 通过记忆路径曾经获得的最优Q-函数值和路径的恢复速率,使曾经发生拥塞的路径在恢复后重新获得被选择利用的机会。 7 基于Q-学习的路由算法 结论与展望 本文研究的主要结论 TCP网络 基于Metropolis规则的Q-学习AQM控制器 (第4章) 基于遗传算法的模糊Q-学习AQM控制器 (第5章) 基于Q-学习的路由算法 (第7章) QoS路由 基于价格机制的Nash Q-学习流量控制器 (第6章) 非合作用户 ATM网络 基于递归最小二乘的Q-学习 ABR控制器 (第3章) 基于模拟退火的分层强化学习ABR控制器(第2章) * 基于强化学习理论的网络拥塞控制 算法研究 答辩人: 李 鑫 导 师: 张嗣瀛 院士 绪论 主要工作 结论与展望 计算机网络飞速发展 网络拥塞的发生 网络拥塞控制 网络负载超出了网络资源容量和处理能力 存储空间不足 带宽容量不足 处理器速度慢 原因 1 绪论 无限增加网络资源 基于控制理论的拥塞控制方法 网络拥塞控制 TCP网络队列管理算法

您可能关注的文档

文档评论(0)

seunk + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档