- 1、本文档共18页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
三关联规则挖掘理论
基本概念与解决方法
经典的频繁项目集生成算法分析及其改进算法
对项目集格空间理论的发展
关联规则挖掘中的一些更深入的冋题
数量关联规则挖掘方法
关联规则挖掘是数据挖掘研究的基础
关联规则挖掘( Association Rule Mining)是数据挖掘中研究较早而且
至今仍活跃的研究方法之一。
最早是由 Agrawal等人提出的(1993)。最初提出的动机是针对购物
篮分析( Basket Analysis)问题提出的,其目的是为了发现交易数据年
( Transaction Database)中不同商品之间的联糸规则。
关联規则的挖掘工作成果頗丰。例如,关联规则的挖堀理论、算法设
计、算法的性能以及应用推广、并行关联规則挖堀( Parallel
Association Rule mining丿以及数量关联规則挖掘( Quantitive
Association Rule Mining)等。
关联规则挖掘是数据挖掘的其他研究分支的基础
事务数据库
■设l={i,i2,…,im}是一个项目集合,事务数据
库D={t1,t2,…,tn}是由一糸列具有唯一标识
TID的事务组成,每个事条t(i=1,2,…,n)都
对应l上的一个子集。
个事务数据库可以用来刻画
购物记录:1是全部物品集合,D是购物清单,每个元
组t是一次购买物品的集合(它当然是的一个子集)
■其它应用问题
支持度与频繁项目集
定义(项目集的支持度).给定一个全局项目集l和数据库
D,一个项目集三l在D上的支持度( Support)是包含1的
事务在D中所占的百分比: support(1)圳{t∈D|4s/
定义(频繁项目集),给定全局项目集l和数据年D,D中所
有满足用户指定的最小支持度( Minsupport)的项目集
即大于或等于 minsupport的l的非空子集,称为频繁项目集
(频集: Frequent Itemset)或者大项目集( Large
litemsets)。在频繁项目集中挑选出所有不被其他元素包
含的频繁项目集称为最大频繁项目集(最大频集
Maximum Frequent Itemsets)或最大大项目集
(Maximum Large litemsets)
可信度与关联规则
定义(关联规则与可信度)给定一个全局项目集l
和数据厍D,一个定义在l和D上的夭联规则形如
→12,并且它的可信度或信任度或置信度
( Confidence)是指包合1和l2的事务数与包含l的
事务数之比,即
Confidence (11=2)=support (I1UI2)/ support (1)
其中,12,1∩l2=φ。
定义(强头联规则).D在l上满足最小支持度和最
小信任度( Minconfidence)的关联规则称为强关
联规则( Strong Association Rule。
文档评论(0)