关联规则挖掘理论..ppt

  1. 1、本文档共18页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
三关联规则挖掘理论 基本概念与解决方法 经典的频繁项目集生成算法分析及其改进算法 对项目集格空间理论的发展 关联规则挖掘中的一些更深入的冋题 数量关联规则挖掘方法 关联规则挖掘是数据挖掘研究的基础 关联规则挖掘( Association Rule Mining)是数据挖掘中研究较早而且 至今仍活跃的研究方法之一。 最早是由 Agrawal等人提出的(1993)。最初提出的动机是针对购物 篮分析( Basket Analysis)问题提出的,其目的是为了发现交易数据年 ( Transaction Database)中不同商品之间的联糸规则。 关联規则的挖掘工作成果頗丰。例如,关联规则的挖堀理论、算法设 计、算法的性能以及应用推广、并行关联规則挖堀( Parallel Association Rule mining丿以及数量关联规則挖掘( Quantitive Association Rule Mining)等。 关联规则挖掘是数据挖掘的其他研究分支的基础 事务数据库 ■设l={i,i2,…,im}是一个项目集合,事务数据 库D={t1,t2,…,tn}是由一糸列具有唯一标识 TID的事务组成,每个事条t(i=1,2,…,n)都 对应l上的一个子集。 个事务数据库可以用来刻画 购物记录:1是全部物品集合,D是购物清单,每个元 组t是一次购买物品的集合(它当然是的一个子集) ■其它应用问题 支持度与频繁项目集 定义(项目集的支持度).给定一个全局项目集l和数据库 D,一个项目集三l在D上的支持度( Support)是包含1的 事务在D中所占的百分比: support(1)圳{t∈D|4s/ 定义(频繁项目集),给定全局项目集l和数据年D,D中所 有满足用户指定的最小支持度( Minsupport)的项目集 即大于或等于 minsupport的l的非空子集,称为频繁项目集 (频集: Frequent Itemset)或者大项目集( Large litemsets)。在频繁项目集中挑选出所有不被其他元素包 含的频繁项目集称为最大频繁项目集(最大频集 Maximum Frequent Itemsets)或最大大项目集 (Maximum Large litemsets) 可信度与关联规则 定义(关联规则与可信度)给定一个全局项目集l 和数据厍D,一个定义在l和D上的夭联规则形如 →12,并且它的可信度或信任度或置信度 ( Confidence)是指包合1和l2的事务数与包含l的 事务数之比,即 Confidence (11=2)=support (I1UI2)/ support (1) 其中,12,1∩l2=φ。 定义(强头联规则).D在l上满足最小支持度和最 小信任度( Minconfidence)的关联规则称为强关 联规则( Strong Association Rule。

文档评论(0)

bokegood + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档