基于Apriori算法超市商品销售数据关联规则分析.doc

基于Apriori算法超市商品销售数据关联规则分析.doc

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
基于Apriori算法的超市商品销售数据的关联规则分析 郑印 (华中师范大学 计算机学院, 湖北 武汉 430079) Apriori association rules algorithm based supermarket merchandise sales data Zhengyin (Computer College, Central China Normal University, Hubei 430079, China) 摘要:Abstract:Apriori algorithm is widely used in business and price’s analysis of consumer market , it can quickly determine the impact of price’s relationships between the various products. Especially using in supermarket retailing is even more widespread, through the analysis of sales data of record, the association rule mining commodities, help to improve the supermarket retail sales rates, and enhance their market competitiveness. Key words:Association rules; Apriori algorithm; sales rate 1.研究背景 超市零售业是数据挖掘应用较为活跃的一个领域。了解客户的购买习性和趋势,对于零售商制订销售策略是至关重要的。通过关联规则的挖掘,分析客户对商品的需求状况,发现顾客的潜在需求特征,有目的性的开展广告和销售业务。通过对顾客的忠诚度分析,相应调整商品的价格和类型,改进销售服务,有利于保持现有客户,寻找潜在的客户,扩大销售的范围和规模,从而增加销售量。通过分析销售的数据记录,目前主要应用于销售预测、库存需求、零售点选择和价格分析,分析客户的购买行为和习惯,分析商场的销售商品的构成,使商品的选择与搭配更为科学。因此,对超市经营信息、数据的整理、挖掘,从中得出对经营有用的信息,增强超市的竞争能力,已经成为各家超市企业面临的一个紧迫课题(Association Rules) 的挖掘是数据挖掘中的一个重要问题。我们采用的是相关性分析的方法,采用的是Apriori算法。 Apriori算法是一种最有影响的挖掘布尔关联规则频繁项集的算法。其核心是基于两阶段频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。 该算法的基本思想是:首先找出所有的频集,这些项集出现的频繁性至少和预定义的最小支持度一样。然后由频集产生强关联规则,这些规则必须满足最小支持度和最小可信度。然后使用第1步找到的频集产生期望的规则,产生只包含集合的项的所有规则,其中每一条规则的右部只有一项,这里采用的是中规则的定义。一旦这些规则被生成,那么只有那些大于用户给定的最小可信度的规则才被留下来。为了生成所有频集,使用了递推的方法。 4.数据关联规则挖掘的实现过程 数据采集 数据是数据挖掘的前提,数据采集是获取数据的方法与实现。 可以对数据库中的数据进行抽样筛选得到与数据挖掘所处理的相关数据。也可以利用视图对数据库中的数据进行筛选。 首先从数据中抽取同一购物单上的物品组成事务,用于关联挖掘如表1-1 物品一 物品二 物品三 物品四 物品五 物品六 手套 科普 牙膏 电视机 电视机 洗衣机 T恤 牙刷 牛奶 ...... ......... ....... ....... 表 1-1 关联事务表 b)数据预处理 在数据采集的基础上,处理数据,使数据易于进行挖掘处理。主要进行了下面几个步骤:1)将商品信息表、销售记录表合并到一起(即数据集成),返回销售关联信息。2)去除不用的数据字段,比如,销售日期、商品数量等等对数据挖掘没有作用,在预处理阶段就把这些字段排除。 c)数据挖掘 Apriori算法是一种最有影响的挖掘布尔型关联规则频繁项目集的算法。算法思想的是基于先验知识,Apriori算法所采用的是逐层迭代搜索方法,K-项目集用于搜索(K+1)-项目集,首先,寻找出频繁1-项目集的集合,该集合记作L1, L1用来寻找频繁2-项目集的集合L2,再用L2寻找出L3,以此类推,直到不能找到频繁M-项目集为止。每次找出一个Lk,就需要扫描数据库一次,即如下所述: 寻找频

文档评论(0)

nnh91 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档