第6章挖掘大型数据库中的关联规则.pptVIP

下载本文档

3
0
约9.56千字
约 59页
2018-05-13 发布于四川
举报
版权申诉

第6章挖掘大型数据库中的关联规则.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第六章：挖掘大型数据库中的关联规则关联规则挖掘由事务数据库挖掘单维布尔关联规则由事务数据库挖掘多层关联规则由关系数据库和数据仓库挖掘多维关联规则由关联挖掘到相关分析基于约束的关联挖掘关联规则挖掘—一个例子对于规则 A ? C: support = support({A ? C}) = 50% confidence = support({A ? C})/support({A}) = 66.6% Apriori 算法: 频繁项集的所有非空子集都必须也是频繁的。挖掘频繁项集: 关键步骤找到频繁项集: 这个集合都满足最小支持度频繁项集的所有非空子集都必须也是频繁的 i.e., 如果 {AB} 是频繁项集, {A} 和 {B} 都应该是频繁项集最层搜索的迭代方法找到1到K项频繁项集使用频繁项集产生关联规则 Apriori算法连接步: Ck 通过与Lk-1连接而产生剪枝步: 任何 (k-1)-项集如果不是频繁的就不能成为k项频繁项集的子集。伪码算法: Ck: Candidate itemset of size k Lk : frequent itemset of size k L1 = {frequent items}; for (k = 1; Lk !=?; k++) do begin Ck+1 = candidates generated from Lk; for each transaction t in database do increment the count of all candidates in Ck+1 that are contained in t Lk+1 = candidates in Ck+1 with min_support end return ?k Lk; The Apriori Algorithm — Example 怎样产生候选项? 假设 Lk-1 都按序排列第一步: 连接 Lk-1 insert into Ck select p.item1, p.item2, …, p.itemk-1, q.itemk-1 from Lk-1 p, Lk-1 q where p.item1=q.item1, …, p.itemk-2=q.itemk-2, p.itemk-1 q.itemk-1 第二步: 剪枝 forall itemsets c in Ck do forall (k-1)-subsets s of c do if (s is not in Lk-1) then delete c from Ck 产生候选项的例子 L3={abc, abd, acd, ace, bcd} 连接: L3*L3 abcd from abc and abd acde from acd and ace 剪枝: acde 没有剪去是因为 ade 不在 L3 C4={abcd} 提高 Apriori的有效性方法基于散列的技术（散列项集技术）事务压缩（压缩进一步迭代扫描事务）划分（为候选项集划分数据）选样（在给定数据的一个子集挖掘）动态项技术（在扫描的不同点添加候选项集） Apriori是否足够快? — 性能瓶颈 Apriori 算法的核心: 使用频繁 (k – 1)项集来产生候选频繁 k项集使用数据库扫描和模式匹配来对候选集计数 Apriori算法的瓶颈: 候选集的产生它可能需要产生大量候选项集: 104 个频繁 1项集将产生107 候选 2项集为发现长度为100的频繁模式，如： {a1, a2, …, a100}, 必须产生多达 2100 ? 1030 个候选需要重复的扫描数据库: 需要 (n +1 ) 次扫描, n 是最长的模式长度挖掘频繁模式不需要候选集将一个大型数据库压缩到一棵 Frequent-Pattern tree (FP-tree) 树的结构中高度的压缩，但是保持完全的频繁模式挖掘避免高消耗的数据库扫描形成一种高效，基于FP-树的频繁模式挖掘方法一种分治策略：分解挖掘任务成一些小的挖掘任务避免候选项的产生：只对子数据库挖掘从事务数据库构造FP-树 FP-树结构的带来的优点完全: 不会破坏任何事务的长模式对频繁模式挖掘保持完整的信息简洁，紧密：减少不相关的信息，不频繁项被去掉频繁项的降幂排序：更多的频繁项能够共享永远不会比初始数据库大例子: 对于连接4 DB，压缩里可以超过100 使用FP-树挖掘频繁模式一般观点 (分治策略) Recursively grow frequent pattern path

您可能关注的文档

文档评论（0）

wxc6688 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

第6章挖掘大型数据库中的关联规则.pptVIP