K―Means算法及其在卷烟零售门店库存聚类分析中应用.docVIP

下载本文档

38
0
约4.05千字
约 8页
2018-08-11 发布于福建
举报
版权申诉

K―Means算法及其在卷烟零售门店库存聚类分析中应用.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

K―Means算法及其在卷烟零售门店库存聚类分析中应用

K―Means算法及其在卷烟零售门店库存聚类分析中应用　　[摘要] 为准确了解市场库存和需求，减小商业库存压力，实现对零售户进行按需供货，发现零售户群体共性特征，通过考察零售户的年销售量和年库存量，基于Spark+MLlib的kmeans++算法实现对零售户行为的聚类，并根据收集所得的卷烟销售扫码数据采用KMeans+进行聚类分析，将客户分为三大类别，得到了较为合适的分类结果，给出了相应的销售和库存的管理策略，这为卷烟销售和库存管理策略的制定提供决策支持。　　[关键词] K-Means算法；卷烟零售户；库存聚类分析　　[中图分类号] F272 [文献标识码] A 　　[文章编号] 1009-6043（2017）03-0128-02 　　Abstract： In order to accurately understand the market inventory and demand， reduce the pressure of business inventories， implement the on-demand supply to retailers and find out the common features of retailers groups， the study investigates their annual sales and inventory level. The customer can be divided into three categories based on the kmeans++ algorithm of Spark + MLlib and clustering analysis of collected the code data of cigarette sales by means of KMeans +. The appropriate classification results， and corresponding management strategy of sales and inventory， which provide decision support. 　　Key words： K-Means algorithm， cigarette retailers， inventory clustering analysis 　　一、前言　　KMeans算法是聚类分析中的常用算法，它是数据划分或者分组处理的重要方式，目前在电子商务、生物科学、图像处理、Web文档分类等领域都得到了有效的应用，如许多文献利用KMeans进行聚类分析将客户细分特定的类型，同时根据其所属类别进行群组协同推荐。论文根据收集所得的卷烟销售扫码数据采用KMeans进行聚类分析，以期更为准确了解市场销售和库存情况，减小商业库存压力，实现对零售户?M行按需供货，发现零售户群体共性特征，为制定合理的卷烟销售和库存管理策略提供决策支持。　　二、实验平台选择　　Spark是一个基于内存的分布式计算系统，是由UCBerkeley AMPLab实验室于2009年开发的开源数据分析集群计算框架，是BDAS（Berkeley Data Analytics Stack）中的核心项目，被设计用来完成交互式的数据分析任务。MLlib是建立在Apache Spark上的分布式机器学习库，Spark的机器学习有分类和回归、协同过滤、聚类、降维和特征提取和变换等[2]。Spark将分布式内存抽象成弹性分布式数据集（Resilient Distributed Datasets，RDD）。RDD允许用户在执行多个查询时显式地将工作集缓存在内存中，以便后续的查询能够重用，这极大地提升了查询速度[2]。故论文选择了Spark+MLlib作为K-means算法的运行平台。　　三、卷烟零售户销售量和库存的聚类分析　　（一）原始数据及数据预处理　　烟草公司在以往的经营中产生了海量的柜台扫码交易数据，本文数据来自贵阳市红华烟草公司零售门店在2014年1月1日至2015年3月20日之间产生的柜台扫码销售及库存数据，共有2014年1月1日至2015年3月20日的1797371条销售数据，有销售码、执照-代号、交易时间、商品代号、交易数量、单价、交易金额、门店名等字段，265071条库存数据，有库存数量、日期、时间、门店名等字段。本实验通过spark集群计算出每个零售门店在2014年1月1日至2015年3月20日之间日库存量之和与日销售量之和，最终得到了各零售户的年销售量（单位：箱）和年库存量（单位：箱）。例如，零售户1的销售量（单位：箱）和年库存量（单位：箱）分别为18706箱和57705箱，