基于强化学习算法的供应链自适应随机库存控制研究.pdfVIP

  • 13
  • 0
  • 约1.13万字
  • 约 5页
  • 2015-08-20 发布于未知
  • 举报

基于强化学习算法的供应链自适应随机库存控制研究.pdf

一般工业技术

第 27卷 第 4期 青 岛大 学 学 报 (工 程 技 术 版 ) Vol_27No.4 2012年 12月 JOURNALOFQINGDAOUNIVERSITY (E&T) Dec.20 12 文章编号 :1006—9798(2012)04一O011—05 基于强化学习算法的供应链 自适应随机库存控制研究 宋晓鹏 ,张纪会 ,张超群 ,马清悦 (青岛大学复杂性科学研 究所,山东 青岛 266071) 摘要:针对非平稳随机需求的多级多周期供应链库存控制 ,本文建立了一种包括一个供 应商和多个零售商的供应链分散式 自适应库存控制模型,以满足给定的零售商服务水平。 同时,运用强化学习算法 ,并根据需求变化情况,供应商和零售商分别 自适应地调整库存 控制参量 。仿真试验表明,当相对需求分布已知 ,而需求未知 时,订货量和服务水平都相 对不稳定 ;安全因子范围大的,订货量和服务水平 的波动相对较大 ,且能够更快的把服务 水平调整到 目标服务水平区问内。该模型是合理和有效的。 关键词:自适应库存控制 ;强化学习;仿真;供应链 中图分类号:TP273 .2;F253.4 文献标识码 :A 库存的主要作用在于缓冲供给和需求之间的矛盾。库存管理通过制定政策和流程 以及开展活动等方式 来确保每一个存货单项和商业组织在任何时候都拥有适 当的数量 。库存控制是 以对存储商品、订货时间和 数量 3个基本问题 的回答为基础 。近年来 ,随着用户需求 的不确定性和多样性的增加 ,库存控制引起人们极 大的关注。为此 ,自适应库存控制策略应运而生 。H.Scarf等人_1-4把库存控制看成一个动态规划问题 ,并 且运用历史的需求数据 自适应地估计需求分布的不确定参数 ;对于一对一 的库存控制问题 ,A.Packerl5提 出了(Q,R)库存策略,充分利用需求历史来减少库存的相关费用 ;K.Moinzadeh_l6]提 出了供应商补货策略, 当零售商库存量达到R十S时,供应商 向上游发布订单 ,那些服从泊松分布的顾客需求可 以得到相应 的 S 值 。对于分散型供应链 ,ZhaoXiande等人_7建立 了零售商订单奖惩策略 ,该策略可使供应商能够更好地利 用资源并顺利生产 ,从而减少整个供应链的成本 ;P.Pontrandolfo_8将强化学习算法应用于跨国公司的供应 链协调和集成问题 。由于产品生命周期 的缩短 ,假设需求分布已知则显得不合理 ,对于在需求分布未知时的 库存控制问题 ,C.0.KimE提 出了集中式和发散式两个 自适应库存控制模型;孙超等人l1。。将强化学习算法 运用到 VMI自适应库存控制中。目前,虽然供应链库存控制已经得到大量研究,但是非平稳随机需求 的多 级多周期供应链库存控制还没有很好的解决 ,对此,本文建立一种包括一个供应商和多个零售商的供应链分 散式 自适应控制模型 ,以满足零售商确定的服务水平 ,仿真算例验证 了该模 型的合理性和算法的有效性 。 1 模型描述 考虑 由一个供应商和多个零售商组成的两级供应链口]。假设顾客需求是非平稳的随机过程 ,即需求分 布的平均值和方差随时间变化,而供应商补货 的交付周期是 固定 的。零售商 的服务水平是指从发布订单的 时刻到库存补给时刻内满足顾客需求的百分 比。 为了获得更高的服务水平 ,必须有更多的商品来应对顾客 的不确定性需求 ,这样就增加 了库存量 ,造成 了更多的费用 ,所以零售商不是获得越高的服务水平就越好 。模型中,假设 目标服务水平是 [a,6]。 安全因子不是固定的,如果使用某个安全 因子得到比较好 的效果 ,那么在需求波动不大的前提下,所采 用的安全因子与这个安全因子差别不大,那么库存控制效果也会较好 。本文所设计的模型中,假设从 6个区 收稿 日期 :2012—07—12 基金项 目:山东省 自然科学基金项 目资助 (ZR2olOGMO06) 作者简介 :宋晓鹏 (1987一),男 ,硕士研究生 ,主要研究方向为物流与供应链管理 。 12 青 岛大学 学报 (工程 技术版 ) 第 27卷 间随机产生 6个安全因子 。

文档评论(0)

1亿VIP精品文档

相关文档