- 1、本文档共4页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
改进购物篮分析的关联规则挖掘算法
维普资讯
2006年4月 重庆大学学报 (自然科学版) Apr.2006
第29卷第4期 JournalofChongqingUniversity(NaturalScienceEdition) V0l_29 No.4
文章编号:1000—582X(2006)04—0105—03
改进购物篮分析的关联规则挖掘算法
王 德 兴,胡 学钢,刘 晓平,王 浩
(舍肥工业大学计算机与信息学院,安徽舍肥 230009)
摘 要:基于改进传统购物篮分析的关联规则挖掘是在数据处理时引入兴趣度加权的思想,将所有
交易中同一类商品的交易量进行归一化处理,根据用户领域知识的要求,计算该类商品的兴趣度加权阈
值,从而改进传统的购物篮分析,使所挖掘出的关联规则符合实际,同时减少关联规则挖掘的工作量,提
高规则挖掘的效率和准确性.
关键词:关联规则;Apriori算法;频繁项 目集;数据挖掘
中图分类号:TP181 文献标识码:A
关联规则挖掘是数据挖掘领域的一个重要分支, 变量,表示该商品是否被购买,每一个篮子相当于是一
R.Agrawal等人于 1993年首先提出了关联规则.】 挖 个事务,可用一个布尔向量表示,在这里可表现为关联
掘的思想,并讨论了从大型超市商品交易数据库中挖 规则,即令,=[,1,,2.,,3,…,^]是n个不同项 目的集合
掘关联规则的问题,该思想的一个典型应用是挖掘基 (Itemset),在事务数据库 D 中,事务 T可表示为
于超市交易数据的关联规则. [TID,11,2.,3…,],其中 为事务标识,每一个
事务有一个,在数据库 D中全T局ID
若挖掘基于超市交易数据的关联规则,仅仅是采 唯一标识;,,2.… 一
用典型理论模型,挖掘出的规则是不符合实际应用的, ImE,,1≤i≤m≤n,即每个事务 是项 目的集合,使
需要改进理论模型以适应挖掘基于超市交易数据的关 得 TCL设A是一个项 目集,事务 包含A当且仅当
联规则的真实需要,为此笔者提出基于改进购物篮分 A
析的关联规则的挖掘算法. 关联规则是一个形如Aj 的逻辑蕴涵式,其中
由于传统购物篮 分析的数据处理方法在进行 Ac,,BCI且AnB= .若数据库D中有支持度 Is的
数据处理时,因为忽略顾客购买商品的具体数量,如将 事务包含Au ,则关联规则Aj 在数据库 D中成
大批量采购的客户与零售等同看待,在将超市交易数 立,则其支持度可定义为:Support(A:=~B)=P(AOB)=
据转化为布尔型数据处理时,所得到的规则是失真的、 Is,其中Is是D中事务包含Au (即A和 二者)的百
不准确的,甚至是歪曲的. 分比,P(AuB)是概率;若在D中包含A的事务中同
基于改进购物篮分析,挖掘超市数据中的关联规 时也包含 ,则关联规则 A B的可信度 c(Conti—
则需要在数据处理时引入兴趣度加权的思想,根据用 dence)可定义为:Confidence(A~B)=尸(BlA)=Sup—
户的某一标准,计算出该类商品的兴趣度加权阈值,而 port(Aj )/Support(A)=C,即在D中,C是在事务中
不是根据用户主观随意的设定值,然后转换成布尔向 包含A同时也包含 的百分比,P(BIA)是条件概率.
量,这样使所挖掘的规则更符合实际,减少了主观随 R.Agrawal等首先提出了关联规则挖掘的思想,
意性. 文献[1]提出的Apriori算法是最有影响的挖掘布尔型
文档评论(0)