- 1、本文档共45页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
系统仿真 图5.1 网络性能随负载变化仿真结果 (a) 吞吐量 (b) 丢弃概率 (c) 传输时延 5 基于遗传算法的模糊Q-学习AQM控制器的设计 (a) (b) (c) 系统仿真 5 基于遗传算法的模糊Q-学习AQM控制器的设计 图5.3 本章算法缓冲队列仿真结果 图5.2 上一章算法缓冲队列仿真结果 小结 利用模糊推理实现了对连续状态空间的描述,使控制效果更加精确; 利用参数q的变化量计算适应度函数,基于遗传算法改进了动作选择策略。 5 基于遗传算法的模糊Q-学习AQM控制器的设计 6 基于价格机制的Nash Q-学习流量控制器的设计 合作用户:均分网络资源 非合作用户:竞争网络资源 图6.1 收益函数性质 (6.1) 定义第i个用户的奖赏函数为 (6.2) 为用户i以速率 发送数据所获得的收益,定义为 基于价格机制的奖赏函数设计 图6.2 价格策略函数曲线 6 基于价格机制的Nash Q-学习流量控制器的设计 控制器的设计 6 基于价格机制的Nash Q-学习流量控制器的设计 :有限的状态集,即网络的状态 的集合; :有限的动作集,即第i个用户发送速率 的集合,这里取为 ; :第i个用户获得的即时奖赏值。 (6.9) 为了实现用户个体收益与网络整体性能之间的平衡,将Nash平衡思想引入到Q-函数值的学习过程中,用户i的Q-函数值更新如下 基于强化学习理论的网络拥塞控制 算法研究 答辩人: 李 鑫 导 师: 张嗣瀛 院士 绪论 主要工作 结论与展望 计算机网络飞速发展 网络拥塞的发生 网络拥塞控制 网络负载超出了网络资源容量和处理能力 存储空间不足 带宽容量不足 处理器速度慢 原因 1 绪论 无限增加网络资源 基于控制理论的拥塞控制方法 网络拥塞控制 TCP网络队列管理算法 ATM网络ABR流量控制 主动队列管理 显示速率反馈 1 绪论 路由选择 呼叫允许控制 流量控制 基于数学模型的拥塞控制方法 基于强化学习理论的拥塞控制方法 1 绪论 精确的数学模型难以得到 图1.1 强化学习单元与环境关系图 主要工作 基于模拟退火的分层强化学习ABR流量控制 基于递归最小二乘的Q-学习多瓶颈ABR流量控制 基于Metropolis规则的Q-学习AQM算法 基于遗传算法的模糊Q-学习AQM算法 基于价格机制的Nash Q-学习流量控制 基于Q-学习的路由算法 控制器的结构 图2.1 ABR流量控制器的结构 2. 基于模拟退火的分层强化学习ABR流量控制器的设计 AEN是具有一个隐含层的三层神经网络 输入:ATM网络的状态 输出:状态评价信号 内部强化信号 (2.4) 2. 基于模拟退火的分层强化学习ABR流量控制器的设计 AEN的设计 ASN采用分层机制,以b-ASN为例,为五层模糊神经网络 输入:ATM网络的状态 输出:建议ABR发送速率 2. 基于模拟退火的分层强化学习ABR流量控制器的设计 ASN的设计 (2.14) 对子网络的输出 和 加权求和得到建议ABR发送速率 其中 (2.15) 为了扩展搜索空间,SAM对ASN的输出进行修正。 (2.17) 其中 (2.18) 式(2.17)中正负号的选取规则为 如果 ,则k时刻符号与k-1时刻符号相同; 如果 ,则k时刻符号与k-1时刻符号相反。 2. 基于模拟退火的分层强化学习ABR流量控制器的设计 SAM的设计 (2.19) 模拟退火的性能指标为 模拟退火的伪代码为 Initial ( ); Do { for to { Generate ( from ); if then ; else if then } ; Length ( ); Control ( ); } While (Stop Circle) 2. 基于模拟退火的分层强化学习ABR流量控制器的设计 基于模拟退火的ASN参数学习 图2.2 模糊神经网络 仿真结果 系统仿真 图2.3 梯度下降-强化 学习仿真结果 图2.4 模拟退火-强化 学习仿
文档评论(0)