- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
计算机系统与计算机网络中动态优化模型求解与应用
计算机系统与计算机网络中动态优化模型求解与应用
摘要:针对计算机系统在网络应用中存在主要问题,该文给出了基于动态优化的设计方案,通过对动态优化数学模型的建立与求解,实现了动态优化在计算机系统及其网络中的应用。对比静态优化理论,对动态优化中应用马尔可夫决策过程进行了详细的讨论与分析。依据马尔可夫决策过程深入的研究讨论了计算机系统与计算机网络中的建模、求解方法和应用实例。
关键词:计算机系统;动态优化;模型解析
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)35-0038-02
近年来,计算机系统和计算机网络对居民生活所产生的影响越来越大,在各个领域的应用也越来越多,不仅在高端科研实验中大量应用,而且深入到了人们的日常生活中。在这样的复杂背景下,想要提高计算机网络和计算机系统的运行效率,就不得不面对系统资源如何分配、系统数据如何调动等问题,而且为了公众效益,降低成本也是十分关键的问题。
优化理论是研究计算机网络以及计算机系统的一种常见的方法之一,主要用于处理资源分配还有任务调度等问题。优化理论可以根据时间维度分为静态优化和动态优化两种方式。两种优化方式中的静态优化系统是不随时间的变化而改变,也就是说计算机系统中资源的需求量和保有量是不随时间变化而变化的常量。然而,在实际应用的过程中,计算机系统并不是一成不变的,它不仅可能受到时间变化的影响,而且往往会被外界环境所干扰,这就导致在未来可能发生的变化被静态优化系统所忽略,从而不能反映出因为决策者的行?椋?然后对未来可能产生的影响,体现不出系统受时间影响的特性。综上,本文将以动态优化的处理方法去处理计算机网络和计算机系统的应用问题。进行动态优化时,关于时间累积量的系统收益是系统的目标函数,对比与静态优化,动态优化可以更好地体现出系统的时变性,亦能反映出随时间累积,决策者的决策对目标函数的影响。
马尔可夫决策过程(MDP)是动态优化的基本理论模型。具体定义为:根据决策者的行为,并依赖时间t的系统状态,可以推断出系统在t+1时刻时的状态转移情况,且在[0,t+1]的时间段中,决策者的行为对系统状态不产生影响。对于当前计算机系统和计算机网络中,动态优化模型一直是解决资源分配、资源整理和任务调度等问题的一个热点。本文利用马尔可夫决策过程,从建立模型、找出解答方法及提出应用等角度,论述了动态优化理论的实际应用。
1 动态优化理论模型构建
1.1 马尔可夫决策过程
马尔可夫决策过程包含的要素有:
1) 用来描述系统状态的状态集合S;
2) 在状态空间中决策者可能发生的行为,也就是依赖于当前状态下决策者的行为集合,用A(s)来表示;
3) 收益函数是指决策者发出行为,并且该行为对系统产生了影响,因此而产生效益;
4) 当下一时刻计算机系统的状态仅受决策者行为和当前状态影响,即与系统的历史状态无关时,将这一特性称为马尔可夫决策过程的后效性,它是马尔可夫决策过程的一个显著特性。
1.2 马尔可夫决策流程
马尔可夫决策过程中决策者当前所需的决策行为一般根据策略π来得到,策略π是一个从状态集合S到行为集合A的映射。马尔可夫决策过程一般都具有四个执行流程,分别是:
1) 首先由决策者观察所处状态s(当前状态);
2) 获得已知状态信息后,根据该信息发出决策行为π(s);
3) 系统状态可能会因为行决策行为π(s)的发出而发生转换;
4) 重复流程1中的操作。
系统在执行时,会由MDP生成一个收益序列,引入目标函数J,目的是用来比较MDP中决策者发出的策略的优劣程度,且收益序列将会被映射成一个实数值。
1.3 值函数
值函数是MDP中的非常重要概念之一,用表示。是一个映射,范围是从π×S到R(实数集)。的含义为:已知策略π,状态,求得目标函数J的期望,且在无限时间内,MDP满足递推方程,即:
(1)
式中,α―折扣因子,根据式(1)不难看出,策略是收益的和。式(1)也可写为向量形式,即:
(2)
2 马尔可夫过程数学解
1) 运行目标
首先,对于随机MDP,目标函数常带有期望形式(E),一般带有期望的目标函数分为有限马尔可夫决策流程和无限马尔可夫决策流程,具体形式如下:
有限:
(3)
无限:
(4)
(5)
式中,―系统所处状态,―决策者采取的行为。式(4)位无穷时间折扣情况下的目标函数,式(5)为无穷时间平均情形下的目标函数,通常情况下,最大(小)化上述目标函数J,从而得到运行目标。
2) 状态空间分析
系统的状态空间和决策者的行为空间,满足特定条件时,可能是有
您可能关注的文档
最近下载
- 护理事业近五年发展规划(2026-2030).pdf VIP
- 虚体医学丛书:医说解集——昆明新空间1025实验室.pdf VIP
- 跨学科实践活动10 调查我国航天科技领域中新型材料、新型能源的应用-九年级化学下册(人教版2024).pptx VIP
- 2024中国可再生能源大会:大型伞梯式陆基高空风力发电技术研究.docx
- 特发性与继发性三叉神经痛诊疗专家共识(2025版).pptx VIP
- 工艺管道施工方案.pdf VIP
- 《像山那样思考》课件.ppt VIP
- 工艺管道施工方案.doc VIP
- 分析石油地质勘探与储层评价方法.docx VIP
- DB11T 891-2012 居住建筑节能设计标准.pdf VIP
文档评论(0)