关联规则挖掘理论..ppt

下载文档 降价啦

4
0
约1.21千字
约 18页
2020-08-14 发布于福建
举报
版权申诉
保障服务

关联规则挖掘理论..ppt

1、本文档共18页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

三关联规则挖掘理论基本概念与解决方法经典的频繁项目集生成算法分析及其改进算法对项目集格空间理论的发展关联规则挖掘中的一些更深入的冋题数量关联规则挖掘方法关联规则挖掘是数据挖掘研究的基础关联规则挖掘( Association Rule Mining)是数据挖掘中研究较早而且至今仍活跃的研究方法之一。最早是由 Agrawal等人提出的(1993)。最初提出的动机是针对购物篮分析( Basket Analysis)问题提出的,其目的是为了发现交易数据年 ( Transaction Database)中不同商品之间的联糸规则。关联規则的挖掘工作成果頗丰。例如,关联规则的挖堀理论、算法设计、算法的性能以及应用推广、并行关联规則挖堀( Parallel Association Rule mining丿以及数量关联规則挖掘( Quantitive Association Rule Mining)等。关联规则挖掘是数据挖掘的其他研究分支的基础事务数据库 ■设l={i,i2,…,im}是一个项目集合,事务数据库D={t1,t2,…,tn}是由一糸列具有唯一标识 TID的事务组成,每个事条t(i=1,2,…,n)都对应l上的一个子集。个事务数据库可以用来刻画购物记录:1是全部物品集合,D是购物清单,每个元组t是一次购买物品的集合(它当然是的一个子集) ■其它应用问题支持度与频繁项目集定义(项目集的支持度).给定一个全局项目集l和数据库 D,一个项目集三l在D上的支持度( Support)是包含1的事务在D中所占的百分比: support(1)圳{t∈D|4s/ 定义(频繁项目集),给定全局项目集l和数据年D,D中所有满足用户指定的最小支持度( Minsupport)的项目集即大于或等于 minsupport的l的非空子集,称为频繁项目集 (频集: Frequent Itemset)或者大项目集( Large litemsets)。在频繁项目集中挑选出所有不被其他元素包含的频繁项目集称为最大频繁项目集(最大频集 Maximum Frequent Itemsets)或最大大项目集 (Maximum Large litemsets) 可信度与关联规则定义(关联规则与可信度)给定一个全局项目集l 和数据厍D,一个定义在l和D上的夭联规则形如 →12,并且它的可信度或信任度或置信度 ( Confidence)是指包合1和l2的事务数与包含l的事务数之比,即 Confidence (11=2)=support (I1UI2)/ support (1) 其中,12,1∩l2=φ。定义(强头联规则).D在l上满足最小支持度和最小信任度( Minconfidence)的关联规则称为强关联规则( Strong Association Rule。