基于强化学习理论的网络拥塞控制算法研究（李鑫）.pptVIP

下载本文档

124
0
约4.16千字
约 45页
2019-07-15 发布于广东
举报
版权申诉

基于强化学习理论的网络拥塞控制算法研究（李鑫）.ppt

1、本文档共45页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

系统仿真图5.1 网络性能随负载变化仿真结果 (a) 吞吐量 (b) 丢弃概率 (c) 传输时延 5 基于遗传算法的模糊Q-学习AQM控制器的设计 (a) (b) (c) 系统仿真 5 基于遗传算法的模糊Q-学习AQM控制器的设计图5.3 本章算法缓冲队列仿真结果图5.2 上一章算法缓冲队列仿真结果小结利用模糊推理实现了对连续状态空间的描述，使控制效果更加精确；利用参数q的变化量计算适应度函数，基于遗传算法改进了动作选择策略。 5 基于遗传算法的模糊Q-学习AQM控制器的设计 6 基于价格机制的Nash Q-学习流量控制器的设计合作用户：均分网络资源非合作用户：竞争网络资源图6.1 收益函数性质 (6.1) 定义第i个用户的奖赏函数为 (6.2) 为用户i以速率发送数据所获得的收益，定义为基于价格机制的奖赏函数设计图6.2 价格策略函数曲线 6 基于价格机制的Nash Q-学习流量控制器的设计控制器的设计 6 基于价格机制的Nash Q-学习流量控制器的设计：有限的状态集，即网络的状态的集合；：有限的动作集，即第i个用户发送速率的集合，这里取为；：第i个用户获得的即时奖赏值。 (6.9) 为了实现用户个体收益与网络整体性能之间的平衡，将Nash平衡思想引入到Q-函数值的学习过程中，用户i的Q-函数值更新如下基于强化学习理论的网络拥塞控制算法研究答辩人：李鑫导师：张嗣瀛院士绪论主要工作结论与展望计算机网络飞速发展网络拥塞的发生网络拥塞控制网络负载超出了网络资源容量和处理能力存储空间不足带宽容量不足处理器速度慢原因 1 绪论无限增加网络资源基于控制理论的拥塞控制方法网络拥塞控制 TCP网络队列管理算法 ATM网络ABR流量控制主动队列管理显示速率反馈 1 绪论路由选择呼叫允许控制流量控制基于数学模型的拥塞控制方法基于强化学习理论的拥塞控制方法 1 绪论精确的数学模型难以得到图1.1 强化学习单元与环境关系图主要工作基于模拟退火的分层强化学习ABR流量控制基于递归最小二乘的Q-学习多瓶颈ABR流量控制基于Metropolis规则的Q-学习AQM算法基于遗传算法的模糊Q-学习AQM算法基于价格机制的Nash Q-学习流量控制基于Q-学习的路由算法控制器的结构图2.1 ABR流量控制器的结构 2. 基于模拟退火的分层强化学习ABR流量控制器的设计 AEN是具有一个隐含层的三层神经网络输入：ATM网络的状态输出：状态评价信号内部强化信号 (2.4) 2. 基于模拟退火的分层强化学习ABR流量控制器的设计 AEN的设计 ASN采用分层机制，以b-ASN为例，为五层模糊神经网络输入：ATM网络的状态输出：建议ABR发送速率 2. 基于模拟退火的分层强化学习ABR流量控制器的设计 ASN的设计 (2.14) 对子网络的输出和加权求和得到建议ABR发送速率其中 (2.15) 为了扩展搜索空间，SAM对ASN的输出进行修正。 (2.17) 其中 (2.18) 式(2.17)中正负号的选取规则为如果，则k时刻符号与k-1时刻符号相同；如果，则k时刻符号与k-1时刻符号相反。 2. 基于模拟退火的分层强化学习ABR流量控制器的设计 SAM的设计 (2.19) 模拟退火的性能指标为模拟退火的伪代码为 Initial ( ); Do { for to { Generate ( from ); if then ; else if then } ; Length ( ); Control ( ); } While (Stop Circle) 2. 基于模拟退火的分层强化学习ABR流量控制器的设计基于模拟退火的ASN参数学习图2.2 模糊神经网络仿真结果系统仿真图2.3 梯度下降-强化学习仿真结果图2.4 模拟退火-强化学习仿