数据挖掘在超市大数据中的应用.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘在超市大数据中的应用.doc

数据挖掘在超市大数据中的应用   摘 要:大数据时代,各行各业汇集了庞大的数据,如何使这些数据得到充分的利用,数据挖掘是最关键也是最基础的工作。在本次研究中,将数据挖掘技术与购物篮思想理念相结合,运用R语言,对南京一家超市五个月内的销售数据进行研究分析。具体有65536条数据,有31869条销售记录,2242种类商品,将这些商品分为192小类商品,基于食品分类规则将该超市食品分为38类。此次研究过程如下:首先,运用R语言,使用编写字典的方式,对所获取的数据进行清洗,生成结构化数据。然后,在三方面对数据挖掘。一,数据描述性统计挖掘。二关联规则挖掘。最后,用图表的形式展示此次研究的成果。此次烟酒店意义:利用初级数据挖掘的理论支持,帮助企业更好地分析、了解客户,最终赢得客户的竞争是该研究的重要的意义和实际应用价值。   关键词:大数据;数据挖掘;购物篮;超市销售;关联规则   一、研究背景   1998年的《哈佛商业评论》刊登过这样一个案例,20世纪90年代美国沃尔玛超市中,沃尔玛超市管理人员分析销售数据时发现了一个令人难以理解的想象:在某些特定的情况下,啤酒与尿布这两件毫无关联的商品会经常出现在同一购物篮中。1993年美国学者Agrawal提出关于通过分析购物篮中商品集合,从而找出关联关系的关联算法,并根据商品之间的关系,找出客户的购买行为.Agrawal从数学计算机算法角度提出了商品关联关系的计算方法--Apriori算法。沃尔玛尝试将Apriori算法引入到数据分析中,并获得成功,为超市销售产生了开拓性的影响。于是产生了“啤酒与尿布”的故事。   近几年,数据挖掘技术在零售业,电信业,金融业等许多领域得到了广泛的应用。为了更加清楚地了解学习数据挖掘在大数据环境下的应用。此次,我们对数据挖掘中的部分分析功能在零售业(基于一小型超市)的应用做一些粗略的研究与学习,基于关联规则,购物篮,Apriori算法等分析商品销售状况,探索出更多的类似于啤酒与尿布这样的规则等,辅助决策者了解销售全局,降低库存成本,进行市场分析等。   二、文献回顾   数据挖掘出现于20世纪80年代后期,90年代有了突飞猛进的发展。2001年,GartnerGroup的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位。美国麻省理工学院在2001年1月份的《科技评论》(TechnologyReview)提出将在未来5年对人类产生重大影响的10大新兴技术,其中第3项就是数据挖掘。   数据挖掘技术已被广泛的应用于各个领域。在零售业领域,很多大型的零售商都采用了数据挖掘工具进行决策分析,关联规则挖掘已经投入应用领域,交叉管理,库存控制好客户分析设计都是零售业数据挖掘的主要内容。以沃尔玛为例他就采用了BO的方案。LuisCavique的购物篮分析的可扩展算法研究;AndreasMilda,ThomasReutterer提出了一个改进合作过滤方法以及预测二进制购物篮数据的交叉目录购买情况;HorngJinhChangd的基于聚类分析和关联规则分析的潜在客户购买行为的期望模型研究;FransCoenen,PaulLeng的基于分类精确度的关联规则阈值影响等。   国内对数据挖掘的研究较晚,没有形成整体的力量。1993年国家自然基金首次提出支持数据挖掘领域的研究项目。目前,国内的许多科研单位和高等院校竞相开展数据挖掘和知识发现的基础理论及应用研究。复旦大学一直从事这方面的研究,朱扬勇等把一个应用于特征规则基于差异化的兴趣度定义运用到关联给则中,重新设立了兴趣度;武汉科技大学的张新霞等提出基于统计相关性的兴趣度量;东南大学宋爱波等提出了一种解决规则组合爆炸问题的方法,建立了一个带约束规则挖掘算法的模型,对Apriorii算法进行优化。还有其他相关研究。   但是,当前国内零售业数据挖掘工作还处于探索阶段。据了解,许多零售业企业使用收账结账设备获取的相关销售数据,都没有得到充分利用,这些数据本来都可以帮助零售企业实施交叉销售,控制库存,降低库存风险等创造更大的商业价值,却被忽略。所以,我们以南京市一家苏果超市为主体,使用购物篮的思想,从数据的获取,到数据清洗,再到关联规则分析等一系列系统的方法,研究与运用数据挖掘技术。   三、研究对象及方法   本研究所用的超市销售数据来自于南京市某一家苏果便利店的一个月内的月销量数据。数据大约有六万多条。包括商品的单号,商品销售时间,商品名称,销售单价,销售数量,销售金额。其中,部分是一个单号包含一个商品,其余为是一个单号包含多个商品。所以,本次研究不仅对购买了一个商品的购物篮进行描述分析

文档评论(0)

yingzhiguo + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5243141323000000

1亿VIP精品文档

相关文档