第6章 挖掘大型数据库中的关联规则.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第六章:挖掘大型数据库中的关联规则 关联规则挖掘 由事务数据库挖掘单维布尔关联规则 由事务数据库挖掘多层关联规则 由关系数据库和数据仓库挖掘多维关联规则 由关联挖掘到相关分析 基于约束的关联挖掘 关联规则挖掘—一个例子 对于规则 A ? C: support = support({A ? C}) = 50% confidence = support({A ? C})/support({A}) = 66.6% Apriori 算法: 频繁项集的所有非空子集都必须也是频繁的。 挖掘频繁项集: 关键步骤 找到频繁项集: 这个集合都满足最小支持度 频繁项集的所有非空子集都必须也是频繁的 i.e., 如果 {AB} 是频繁项集, {A} 和 {B} 都应该是频繁项集 最层搜索的迭代方法找到1到K项频繁项集 使用频繁项集产生关联规则 Apriori算法 连接步: Ck 通过与Lk-1连接而产生 剪枝步: 任何 (k-1)-项集如果不是频繁的就不能成为k项频繁项集的子集。 伪码算法: Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=?; k++) do begin Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support end return ?k Lk; The Apriori Algorithm — Example 怎样产生候选项? 假设 Lk-1 都按序排列 第一步: 连接 Lk-1 insert into Ck select p.item1, p.item2, …, p.itemk-1, q.itemk-1 from Lk-1 p, Lk-1 q where p.item1=q.item1, …, p.itemk-2=q.itemk-2, p.itemk-1 q.itemk-1 第二步: 剪枝 forall itemsets c in Ck do forall (k-1)-subsets s of c do if (s is not in Lk-1) then delete c from Ck 产生候选项的例子 L3={abc, abd, acd, ace, bcd} 连接: L3*L3 abcd from abc and abd acde from acd and ace 剪枝: acde 没有剪去是因为 ade 不在 L3 C4={abcd} 提高 Apriori的有效性方法 基于散列的技术(散列项集技术) 事务压缩(压缩进一步迭代扫描事务) 划分(为候选项集划分数据) 选样(在给定数据的一个子集挖掘) 动态项技术(在扫描的不同点添加候选项集) Apriori是否足够快? — 性能瓶颈 Apriori 算法的核心: 使用频繁 (k – 1)项集来产生候选频繁 k项集 使用数据库扫描和模式匹配来对候选集计数 Apriori算法的瓶颈: 候选集的产生 它可能需要产生大量候选项集: 104 个频繁 1项集将产生107 候选 2项集 为发现长度为100的频繁模式,如: {a1, a2, …, a100}, 必须产生多达 2100 ? 1030 个候选 需要重复的扫描数据库: 需要 (n +1 ) 次扫描, n 是最长的模式长度 挖掘频繁模式 不需要候选集 将一个大型数据库压缩到一棵 Frequent-Pattern tree (FP-tree) 树的结构中 高度的压缩,但是保持完全的频繁模式挖掘 避免高消耗的数据库扫描 形成一种高效,基于FP-树的频繁模式挖掘方法 一种分治策略:分解挖掘任务成一些小的挖掘任务 避免候选项的产生:只对子数据库挖掘 从事务数据库构造FP-树 FP-树结构的带来的优点 完全: 不会破坏任何事务的长模式 对频繁模式挖掘保持完整的信息 简洁,紧密: 减少不相关的信息,不频繁项被去掉 频繁项的降幂排序:更多的频繁项能够共享 永远不会比初始数据库大 例子: 对于连接4 DB,压缩里可以超过100 使用FP-树挖掘频繁模式 一般观点 (分治策略) Recursively grow frequent pattern path

文档评论(0)

wxc6688 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档