- 108
- 0
- 约1.82千字
- 约 7页
- 2017-08-09 发布于重庆
- 举报
设备更新问题.doc
设备更新问题
许多公司和顾客面临决定在他们应该使用现有设备多长时间才更换一台新设备。这类问题被称做“设备更新问题”而且常常利用动态规划求解这个问题。
举例1
某家汽车修理厂总要用到一台发动机分析仪。新分析仪的成本为1000元。分析仪使用第i年的维修费如下,分析仪可以使用,,或年,在使用i年之后可以更换一台新的分析仪。如果更换使用了i年的分析仪,可以得到残值, 。已知必须在现在购买新分析仪(时间),修理厂决定极小化在今后年内
的更新交换策略。
举例2
一家汽车公司有一种型号的汽车,每辆汽车的年均利润函数与年均维修费用,购买同种型号汽车每辆购价为20万元。如果出售不同使用年龄汽车的价格如表。该公司年初有一辆新汽车,试计划今后4年盈利最大的更新计划。
解:
阶段数 n = 4
状态:以汽车的役龄为状态变量,,表示在第k阶段汽车使用年限为t。
决策变量:继续使用,更新汽车
状态转移方程式
设=在第k年开始使用役龄为t年的汽车,从第k年到第n年的最佳收入
役龄(年) 0 1 2 3 利润函数(万元) 20 18 17.5 15 维修费用(万元) 2 2.5 4 6 出售价格(万元) 17 16 15.5 15 购买价格(万元) 20 20 20 20
k = 4 更新 续用 1 20-2+16-20=14 18-2.5=15.5* 15.5 0 2 2 20-2+15.5-20=13.5* 17.5-4=13.5* 13.5 0,1 1,3 3 20-2+15-20=13 15-6=9 13 0 1 k = 3 更新 续用 1 20-2+16-20+15.5=29.5 18-2.5+13.5=29 29.5 1 1 2 20-2+15.5-20+15.5=29* 17.5-4+13=16.5 29 1 1 k = 2 更新 续用 1 20-2+16-20+29.5=43.5 18-2.5+29=44.5* 44.5 0 2 k = 1 更新 续用 0 20-2+44.5=62.5* 62.5 0 1
应用动态规划的难点
状态空间大到利用动态规划求解要求大量的计算时间。
不可加的递推:不代表在当前阶段到将来的成本或利润之和。
举例:
王先生要从城市1开车到城市10去,他关心的不是最短距离,而是极小化在开车过程中的海拔高度(用高出海平面的千英尺)。是从城市i到城市j所遇到的最大高度。
定义代表从城市出发所遇到最小的最大高度,有如下递推公式
最优路线是,旅行中所遇到的最大高度是8000英尺
马氏决策规则
随机系统的多阶段决策:马尔柯夫决策规则
确定型:
随机型:
一、马尔柯夫过程
动态随机系统的特征,系统的状态转移规律具有无后效性:
已知当前状态,采取的决策后,下一阶段的状态的概率分布是已知的。
与系统以前的发展历史无关。
称具有这种系统状态的转移规律具有马尔科夫特征
状态和时间都是离散的马氏过程
时间间隔为1个单位
系统的状态为有限个N
t t +1 状态转移
矩阵 i → j
二、赋值马氏过程
1. 具有N个状态的马氏过程
2. 任意时刻从i→j获得相应的收益记作,报酬矩阵
3. 经过一定阶段运行后的总报酬
=从i出发作一次转移的期望报酬
一次转移的期望报酬向量。
=从i出发作n次转移的期望报酬
已知,
定义乘法⊙
举例:
马氏决策规则
在赋值马氏过程中,若在某个状态选用不同的决策能够改变相应的状态转移矩阵和赋值矩阵,则产生动态随机系统求解最优问题。
有限阶段的模型的求解方法——值迭代法,总期望报酬值最大化
举例:
1. 决策1——不登广告
2. 决策2——登广告
问题在若干月内采用什么决策才能使其总期望报酬为最大?
设n表示系统的阶段数
=当前状态为i,下一步采用决策d转移到状态j的概率
=表示系统初始状态为,经过个阶段采用最优策略的总期望报酬最大,
则有如下方程式:
由于
因而
=第n阶段系统处于状态i的最优决策。
以上推导表明,如果两个月连续生产,第一个月不登广告,第二个月登广告
原创力文档

文档评论(0)