- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
数据挖掘在超市大数据中的应用
作者:梁婧婕曹婷
来源:《商場現代化》第07期
????????摘要:大数据時代,各行各业汇集了庞大的数据,怎样使這些数据得到充足的运用,数据挖掘是最关键也是最基础的工作。在本次研究中,将数据挖掘技术与购物篮思想理念相結合,运用R語言,對南京一家超市五個月内的销售数据進行研究分析。详细有65536条数据,有31869条销售记录,2242种类商品,将這些商品分為192小类商品,基于食品分类规则将该超市食品分為38类。本次研究過程如下:首先,运用R語言,使用编写字典的方式,對所获取的数据進行清洗,生成构造化数据。然後,在三方面對数据挖掘。一,数据描述性记录挖掘。二关联规则挖掘。最终,用图表的形式展示本次研究的成果。本次烟酒店意义:运用初级数据挖掘的理论支持,协助企业更好地分析、理解客户,最终赢得客户的竞争是该研究的重要的意义和实际应用价值。
????????关键詞:大数据;数据挖掘;购物篮;超市销售;关联规则
????????一、研究背景
????????1998年的《哈佛商业评论》刊登過這样一种案例,20世纪90年代美国沃尔玛超市中,沃尔玛超市管理人员分析销售数据時发現了一种令人难以理解的想象:在某些特定的状况下,啤酒与尿布這两件毫無关联的商品會常常出目前同一购物篮中。1993年美国學者Agrawal提出有关通過度析购物篮中商品集合,從而找出关联关系的关联算法,并根据商品之间的关系,找出客户的购置行為.Agrawal從数學计算机算法角度提出了商品关联关系的计算措施--Apriori算法。沃尔玛尝试将Apriori算法引入到数据分析中,并获得成功,為超市销售产生了開拓性的影响。于是产生了“啤酒与尿布”的故事。
????????近几年,数据挖掘技术在零售业,電信业,金融业等許多领域得到了广泛的应用。為了愈加清晰地理解學习数据挖掘在大数据环境下的应用。本次,我們對数据挖掘中的部分分析功能在零售业(基于一小型超市)的应用做某些粗略的研究与學习,基于关联规则,购物篮,Apriori算法等分析商品销售状况,探索出更多的类似于啤酒与尿布這样的规则等,辅助决策者理解销售全局,減少库存成本,進行市場分析等。
????????二、文献回忆
????????数据挖掘出現于20世纪80年代後期,90年代有了突飞猛進的发展。,GartnerGroup的一次高级技术调查将数据挖掘和人工智能列為“未来三到五年内将對工业产生深遠影响的五大关键技术”之首,并且還将并行处理体系和数据挖掘列為未来五年内投资焦點的拾大新兴技术前两位。美国麻省理工學院在1月份的《科技评论》(TechnologyReview)提出将在未来5年對人类产生重大影响的10大新兴技术,其中第3项就是数据挖掘。
????????数据挖掘技术已被广泛的应用于各個领域。在零售业领域,诸多大型的零售商都采用了数据挖掘工具進行决策分析,关联规则挖掘已經投入应用领域,交叉管理,库存控制好客户分析设计都是零售业数据挖掘的重要内容。以沃尔玛為例他就采用了BO的方案。LuisCavique的购物篮分析的可扩展算法研究;AndreasMilda,ThomasReutterer提出了一种改善合作過滤措施以及预测二進制购物篮数据的交叉目录购置状况;HorngJinhChangd的基于聚类分析和关联规则分析的潜在客户购置行為的期望模型研究;FransCoenen,PaulLeng的基于分类精确度的关联规则阈值影响等。
????????国内對数据挖掘的研究较晚,没有形成整体的力量。1993年国家自然基金初次提出支持数据挖掘领域的研究项目。目前,国内的許多科研單位和高等院校竞相開展数据挖掘和知识发現的基础理论及应用研究。复旦大學一直從事這方面的研究,朱扬勇等把一种应用于特性规则基于差异化的愛好度定义运用到关联給则中,重新设置了愛好度;武汉科技大學的张新霞等提出基于记录有关性的愛好度量;東南大學宋愛波等提出了一种处理规则组合爆炸問題的措施,建立了一种带约束规则挖掘算法的模型,對Apriorii算法進行优化。尚有其他有关研究。
????????不過,目前国内零售业数据挖掘工作還处在探索阶段。据理解,許多零售业企业使用收账結账设备获取的有关销售数据,都没有得到充足运用,這些数据本来都可以协助零售企业实行交叉销售,控制库存,減少库存風险等发明更大的商业价值,却被忽视。因此,我們以南京市一家苏果超市為主体,使用购物篮的思想,從数据的获取,到数据清洗,再到关联规则分析等一系列系统的措施,研究与运用数据挖掘技术。
????????三、研究對象及措施
????????本研究所用的超市销售数据来自于南京市某一家苏果便利店的一种月内的月销量数据。数据大概有六萬多条。包括商品的單号,商品销售時间,商品名称,销售單
您可能关注的文档
最近下载
- 小红书优质商家爆款笔记拆解【小红书商家运营】【小红书运营】.pptx
- 英语高频核心800词.docx VIP
- 支委与党员谈心谈话记录.doc VIP
- 最新国家开放大学24306《创业基础》(统设课)期末终考题库及答案.docx VIP
- 关于2021党史教育谈心谈话记录【六篇】.doc VIP
- 景观游憩学复习资料.pdf VIP
- 2025年广西公需科目答案01.pdf VIP
- 2025年7月份最新征信报告可编辑模版.pdf VIP
- 《大学生心理健康》课件全套侯瑞鹤主题1--10心理健康课:送给自己大学生活的礼物---生命与成长:踏上成为自己的英雄之旅.pptx
- 2025至2030中国航空钛紧固件行业产业运行态势及投资规划深度研究报告.docx
原创力文档


文档评论(0)