基于强化学习的生鲜农产品库存优化.pdf

下载文档

2
0
约1.27万字
约 3页
2025-02-10 发布于山东
举报
版权申诉
保障服务

基于强化学习的生鲜农产品库存优化.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

商业研究

基于强化学习的生鲜农产品库存优化

■李帅鹏马祖怀曲宏博董翠粉郑州科技学院

摘要：

本文针对生鲜农产品零售商库存成本控制问题，充分考虑了在库存成本的控制过程中，零售经营者不可忽视

的利润、持有成本、缺货成本、过期成本等因素，通过设计强化学习四元组，构建一个基于Q学习算法的生鲜农产品零售

终端库存成本控制模型。与传统的库存成本控制策略如定量订货法模型相比，本模型能够有效降低生鲜产品零售商的库

存成本，增加利润。

关键词：

强化学习；生鲜农产品；库存控制

一、引言析，本文构建了基于Q学习算法的库存控制模型，然后

近几年，我国生鲜电商行业进入高速发展期。消费用Python软件做仿真实验得出最优的库存控制策略，为

者可以通过电商平台实现足不出户购买高品质农产品，因现实经营者提供最优的订购策略，从而减少企业的经营

此生鲜电商行业深受广大消费者的欢迎。目前市场上经成本，增加企业的利润，进而提高企业的竞争力。

营生鲜的电商平台较多，但实现盈利的企业较少，亏损的二、算法理论简介

主要原因在于库存成本过高。例如：盒马鲜生、京东这类1.马尔可夫决策过程简介

生鲜零售商，因为种类繁多，仓库容量有限，时常发生缺马尔可夫决策过程是通过数学表达的方式对强化学

货或滞销现象，增加了企业的运营成本。因此一个科学有习进行形式化的描述。马尔可夫决策过程一般由一个四元

效的零售商库存控制策略显得尤为重要。目前较为成熟的组（S，A，R，P）来表示。里面S代表智能体在未知的环

传统库存控制策略如经济批量订货、第三方物流管理库境中所能观测到的所有状态；A代表智能体在这个环境中

存、供应商管理库存、联合库存控制等都起到了降低库可以采取动作的所有集合；R代表智能体在某一状态下采

存成本的作用。然而这些策略主要针对整条供应链，且取了行动，然后获得的及时奖励；P是状态之间的转移概

主要集中在管理层面，供应链各环节为了扩大盈利而主动率，即从某一状态、动作映射到下一状态的概率分布。

增加订货数量，造成了牛鞭效应，导致供应链下游至供应2.强化学习算法简介

链上游库存成本逐级递增的问题。因此，很多学者对库强化学习又可以称为增强学习。强化学习算法是指当

存订货策略进行了研究。智能体处于陌生的环境中，通过不断地与环境进行交互

倪冬梅、赵秋红假设商品的需求分布满足自由分来获得奖励，再利用奖励来不断地调整自己的动作，从而

布，从而搭建了库存优化模型，并对其进行了详细分析。获得最佳的动作策略。强化学习原理如图1所示。

Alizadeh等在需求分布为泊松分布且订货提前期不为0的

假设下，以平均利润为最大函数，搭建了易腐品库存控制代理人

模型。冯颖等基于消费者购买物品的数量对商品标价的

依赖程度，搭建了某一种物品的库存优化模型并对其进行状态改写行动

了研究。叶勇等假设消费者对某一商品的需求满足均匀分

布时，利用了迭代算法在价格折扣的基础上，计算出了零

售商的最佳订货批量。Vaish和Garg认为当一个商品在不

环境

新鲜的时候，对其进行打折，可以促进消费，减少经营者

的损失。在此基础上其搭建了库存优化模型，为经营者

确定了最优的定价策略与最优的订货策略。一些学者将人

您可能关注的文档

文档评论（0）

151****8026 + 关注: 实名认证

内容提供者

安全评价师持证人

该用户很懒，什么也没介绍

咨询Ta 进入空间

领域认证该用户于2023年09月13日上传了安全评价师

1亿VIP精品文档

更多 >

基于强化学习的生鲜农产品库存优化.pdf