基于强化学习的生鲜农产品库存优化.pdf

基于强化学习的生鲜农产品库存优化.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

商业研究

基于强化学习的生鲜农产品库存优化

■李帅鹏马祖怀曲宏博董翠粉郑州科技学院

摘要:

本文针对生鲜农产品零售商库存成本控制问题,充分考虑了在库存成本的控制过程中,零售经营者不可忽视

的利润、持有成本、缺货成本、过期成本等因素,通过设计强化学习四元组,构建一个基于Q学习算法的生鲜农产品零售

终端库存成本控制模型。与传统的库存成本控制策略如定量订货法模型相比,本模型能够有效降低生鲜产品零售商的库

存成本,增加利润。

关键词:

强化学习;生鲜农产品;库存控制

一、引言析,本文构建了基于Q学习算法的库存控制模型,然后

近几年,我国生鲜电商行业进入高速发展期。消费用Python软件做仿真实验得出最优的库存控制策略,为

者可以通过电商平台实现足不出户购买高品质农产品,因现实经营者提供最优的订购策略,从而减少企业的经营

此生鲜电商行业深受广大消费者的欢迎。目前市场上经成本,增加企业的利润,进而提高企业的竞争力。

营生鲜的电商平台较多,但实现盈利的企业较少,亏损的二、算法理论简介

主要原因在于库存成本过高。例如:盒马鲜生、京东这类1.马尔可夫决策过程简介

生鲜零售商,因为种类繁多,仓库容量有限,时常发生缺马尔可夫决策过程是通过数学表达的方式对强化学

货或滞销现象,增加了企业的运营成本。因此一个科学有习进行形式化的描述。马尔可夫决策过程一般由一个四元

效的零售商库存控制策略显得尤为重要。目前较为成熟的组(S,A,R,P)来表示。里面S代表智能体在未知的环

传统库存控制策略如经济批量订货、第三方物流管理库境中所能观测到的所有状态;A代表智能体在这个环境中

存、供应商管理库存、联合库存控制等都起到了降低库可以采取动作的所有集合;R代表智能体在某一状态下采

存成本的作用。然而这些策略主要针对整条供应链,且取了行动,然后获得的及时奖励;P是状态之间的转移概

主要集中在管理层面,供应链各环节为了扩大盈利而主动率,即从某一状态、动作映射到下一状态的概率分布。

增加订货数量,造成了牛鞭效应,导致供应链下游至供应2.强化学习算法简介

链上游库存成本逐级递增的问题。因此,很多学者对库强化学习又可以称为增强学习。强化学习算法是指当

存订货策略进行了研究。智能体处于陌生的环境中,通过不断地与环境进行交互

倪冬梅、赵秋红假设商品的需求分布满足自由分来获得奖励,再利用奖励来不断地调整自己的动作,从而

布,从而搭建了库存优化模型,并对其进行了详细分析。获得最佳的动作策略。强化学习原理如图1所示。

Alizadeh等在需求分布为泊松分布且订货提前期不为0的

假设下,以平均利润为最大函数,搭建了易腐品库存控制代理人

模型。冯颖等基于消费者购买物品的数量对商品标价的

依赖程度,搭建了某一种物品的库存优化模型并对其进行状态改写行动

了研究。叶勇等假设消费者对某一商品的需求满足均匀分

布时,利用了迭代算法在价格折扣的基础上,计算出了零

售商的最佳订货批量。Vaish和Garg认为当一个商品在不

环境

新鲜的时候,对其进行打折,可以促进消费,减少经营者

的损失。在此基础上其搭建了库存优化模型,为经营者

确定了最优的定价策略与最优的订货策略。一些学者将人

文档评论(0)

151****8026 + 关注
实名认证
内容提供者

安全评价师持证人

该用户很懒,什么也没介绍

领域认证该用户于2023年09月13日上传了安全评价师

1亿VIP精品文档

相关文档