第6章:挖掘大型数据库中的关联规则 数据挖掘:概念与技术 知识 .pptVIP

第6章:挖掘大型数据库中的关联规则 数据挖掘:概念与技术 知识 .ppt

  1. 1、本文档共79页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第6章:挖掘大型数据库中的关联规则 数据挖掘:概念与技术 知识 .ppt

第6章:挖掘大型数据库中的关联规则;购物篮分析:;如关联规则:;6.1.1 什么是关联规则挖掘?;许多基本的数据挖掘任务的基础 关联、 相关、 因果关系。 序列模式、 时间或周期关联、局部周期性、 空间和多媒体关联。 关联分类、 聚类分析等。 广泛的应用 购物篮数据分析、 交叉销售、 分类设计、 销售活动分析。 Web 日志 (点击流) 分析、 DNA 序列分析等。;6.1.3 关联规则挖掘:一个路径图;(6.5);(6.6);6.2 单维关联规则挖掘算法 ;6.2.1 Apriori: 一种候选产生-测试方法;Apriori 剪枝原则: 如果一个项集不是频繁的, 将不产生/测试它的超集,称为反单调性。 如{ac}不是频繁的,则{abc}、{acd}不是频繁的。 方法: 由长度为k的频繁项集产生长度为 (k+1) 的候选项集, 并且根据 DB测试这些候选。;  Apriori算法:通过已知的频繁项集构成长度更大的项集,并将其称为潜在频繁项集。 潜在频繁k项集的集合Ck 是指由有可能成为频繁k项集Lk的项集组成的集合。 由Ck产生Lk。   以后只需计算潜在频繁项集的支持度,而不必计算所有不同项集的支持度,因此在一定程度上减少了计算量。;1. Apriori 算法 — 一个例子;2. Apriori 算法;3. Apriori的重要细节;4. 如何产生候选?;普通连接运算:;Apriori 算法中的连接运算;步骤2: 剪枝 forall itemsets c in Ck do forall (k-1)-subsets s of c do if (s is not in Lk-1) then delete c from Ck;5. 完整的Apriori算法;事务表D:;设L3={{1,2,3},{1,2,4},{1,3,4},{1,3,5},{2,3,4}},求C4和L4。 其过程为:;Date;所有频繁项集:;6.2.2 由频繁项集产生关联规则;以第一条规则为例,其置信度=     包含I1、I2、I5的元组数(2);关联规则的可视化1: Pane Graph;关联规则的可视化2: Rule Graph;6.2.3 提高Apriori算法的有效性;1. 基于Hash的技术;  由C1中的候选1-项集产生1-项集L1时,可以对每个事务产生所有的2-项集。;2. 事务压缩;3. 划分: 只扫描数据库两次;4. 选样计算频繁模式;6.3 频繁项集的紧凑表示 6.3.1 最大频繁项集;最大频繁项集集合是频繁项集集合的紧凑表示,由最大频繁项集可以推导所有频繁项集。 例如,在右图中,由最大频繁项集{ad}可以推导频繁项集{a}、{d}和{ad},由{bcd}可以推导{b}、{c}、{d}、{bc}、{bd}、{cd}和{bcd}。 寻找最大频繁项集的搜索策略: 一般到特殊与特殊到一般。 等价类。 宽度优先与深度优先。;(a) (b) 搜索树 ;深度优先与最大频繁项集搜索;6.3.2 频繁闭项集;闭项集和频繁闭项集;定理 对于频繁项集l及其所有直接超集li=l∪{i}(i∈I),如果l是最大频繁项集,则l是频繁闭项集。 证明:∵sup_count(l) ≥n×min_sup 证毕。 根据上述定理,最大频繁项集是频繁闭项集的子集,所以由频繁闭项集同样可以推导所有频繁项集。 ;频繁项集、频繁闭项集与最大频繁项集之间的关系 ;定理 对于频繁项集l及其所有直接超集li=l∪{i}(i∈I),如果l不是闭项集,则 。 证明: 证毕。 根据上述定理,可以通过频繁闭项集的支持计数确定其它频繁非闭项集的支持计数。;例如,在下图中,项集{c}不是闭项集,它的支持计数=max{|{ac}|,|{bc}|,|{cd}|}=7,即等于项集{bc}的支持计数。 ;通过频繁闭项集的支持计数计算其它频繁非闭项集的支持计数的算法。 算法:Cac_sup_count算法 输入:频繁闭项集集合CL 输出:频繁项集集合L 步骤: (1) //找出频繁闭项集的最大长度 (2) //找出最长频繁闭项集 (3) //最长频繁闭项集也是最长

您可能关注的文档

文档评论(0)

yuzongxu123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档