基于强化学习理论的网络拥塞控制算法研究.pptVIP

下载本文档

13
0
约7.89千字
约 66页
2017-02-21 发布于上海
举报
版权申诉

基于强化学习理论的网络拥塞控制算法研究.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于强化学习理论的网络拥塞控制算法研究

基于模拟退火的ASN参数学习研究多种资源的联合分配；研究多种不同的数据流如何公平地享用带宽；区分服务网络的控制是下一步将要研究的课题。基于控制理论的方法解决无线网络的拥塞控制问题。为每个状态-动作对分配一个Q-函数值，作为动作选择的依据图4.1 Q-函数值表 (4.8) Q-函数值的更新迭代过程如下 4 基于Metropolis规则的Q-学习AQM控制器的设计针对多瓶颈网络，学习过程中采用合作奖赏值 (4.14) (1) 初始化策略学习过程基于Metropolis规则的动作选择策略搜索(exploration) 利用(exploitation) 动作选择策略 (2) 依据策略选择动作基于Metropolis规则的策略 (3) 随机选择动作 4 基于Metropolis规则的Q-学习AQM控制器的设计 (5) 执行，网络状态，得到奖赏值r (4.11) (4) 如果，则如果，则计算概率则 (6) 计算学习率，更新Q-函数值与可信度值 (7) 检查拥塞是否发生 (8) 更新Metropolis规则控制参数T (9) 检查算法结束条件 4 基于Metropolis规则的Q-学习AQM控制器的设计状态空间变换图4.2 状态空间变换 4 基于Metropolis规则的Q-学习AQM控制器的设计系统仿真图4.3 网络性能随负载变化仿真结果单瓶颈仿真实验1：网络负载在0.6~1.2之间变化 4 基于Metropolis规则的Q-学习AQM控制器的设计图4.4 缓冲队列仿真结果单瓶颈仿真实验2：网络中源端始终有足够多数据待发送 4 基于Metropolis规则的Q-学习AQM控制器的设计图4.5 平均吞吐量随负载变化仿真结果多瓶颈仿真实验：网络负载在0.6~1.2之间变化 4 基于Metropolis规则的Q-学习AQM控制器的设计图4.6 平均丢弃概率随负载变化仿真结果图4.7 平均时延随负载变化仿真结果 4 基于Metropolis规则的Q-学习AQM控制器的设计小结本章基于Q-学习方法在网络模型未知的情况下设计了TCP网络AQM控制器；基于Metropolis规则改进了动作选择策略，实现了搜索和利用策略的平衡；利用状态空间变换的方法缩减了状态空间的规模；基于合作奖赏值将应用于多瓶颈网络。 4 基于Metropolis规则的Q-学习AQM控制器的设计输入：TCP网络的状态，对各状态进行模糊化处理图5.1 模糊集合的隶属函数输出：数据包丢弃概率p 控制器的设计 5 基于遗传算法的模糊Q-学习AQM控制器的设计 (5.10) 模糊Q-学习中学习单元的模糊规则定义如下对于网络状态，在第i条模糊规则中，依据动作选择策略选择动作 5 基于遗传算法的模糊Q-学习AQM控制器的设计奖赏值r仍取为式(4.2)的形式 (5.11) 通过模糊推理得到全局丢弃概率 (5.12) 状态-动作对所对应的Q-函数值为 (5.13) 令对应着最大的参数q，则为 5 基于遗传算法的模糊Q-学习AQM控制器的设计参数q的学习更新过程如下 (5.16) (5.17) 参数q的变化量计算如下 (5.15) 学习过程中，奖赏值r用于计算Q-函数值的变化量 5 基于遗传算法的模糊Q-学习AQM控制器的设计遗传算法参数寻优的主要过程如下 (1) 编码：对模糊规则后件部分的权值采用二进制编码 (2) 个体适应度评价 (5.21) (5.20) 适应度函数的值通过Widrow-Hoff规则调节如下采用参数q的变化量作为适应度函数计算的依据，定义基于遗传算法的参数寻优 5 基于遗传算法的模糊Q-学习AQM控制器的设计 (3) 遗传操作算子设计：选择，交叉，变异 (5.22) 选择：采用比例选择法 (5.23) 交叉：采用线性变化的交叉概率 (5.24) 变异：采用线性变化的变异概率 5 基于遗传算法的模糊Q-学习AQM控制器的设计系统仿真图5.2 网络性能随负载变化仿真结果仿真实验1：网络负载在0.6~1.2之间变化 5 基于遗传算法的模糊Q-学习AQM控制器的设计图5.3 缓冲队列仿真结果