第五课挖掘频繁项集的压缩表示.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第五课挖掘频繁项集的压缩表示.ppt

第五课 挖掘频繁项集的压缩表示 2011图灵奖得主Judea Pearl 1937- 加州大学洛杉矶分校(UCLA)的计算机科学教授 将贝叶斯网络和概率方法引入人工智能的先驱之一 数学化因果模型的先驱之一 iPhone的Siri语音识别 Google的无人驾驶汽车 关联规则挖掘存在的问题 在实际的关联规则挖掘中,得到的频繁项集的数量过于庞大,如挖掘 i1i2…i100 挖掘少量有代表性的项集: 可以满足问题的需要 或其它项集的信息可由这些项集导出 主要内容 最大频繁项集 频繁闭项集 最大频繁项集 频繁项集 所有超集均不再频繁 集合枚举树 MaxMiner的思想 R. Bayardo. Efficiently mining long patterns from databases. SIGMOD’98 每次产生集合枚举树的一层,如果可能就进行剪枝。 MaxMiner算法 生成第一个结点 N= , 其中 h(N)=?且t(N)={A,B,C,D}. 对N进行扩展, 若h(N)?t(N)是频繁的, 则停止对N进行扩展. 若对i?t(N), h(N)?{i}不频繁, 则在扩展N之前,从t(N)中删除i. 使用全局剪枝策略… 全局剪枝 一旦确定了一个最大频繁项集,则删去所有h(N)?t(N)为其子集的结点. Example Example Example Example 主要内容 最大频繁项集 频繁闭项集 频繁闭项集 I是频繁项集 不存在与I支持度相等的I的超集。 最大频繁项集 vs 频繁闭项集 最大频繁项集 vs 频繁闭项集 基本概念 Pasquier N, Bastide Y, Taouil R et al. Discovering Frequent Closed Itemsets for Association Rules. ICDT’99. 公共项集映射,f(T)={i?I|?t ?T, i?t } --f(12)=f(1)?f(2)=ACD ?BCE=C 支持集, g(I)={t∈TDB | ?i ?I, i?t } --g(AE)=g(A) ? g(E)=135 ?2345=35 项集C是一个闭项集,当且仅当h(C)=f(g(C))=C --f(g(AC))=f(135)=AC,故AC是闭项集 项集g称为闭项集C的生成子,当且仅当h(g)=C,且不存在 s?g,使得h(s)=C. 闭项集与生成子 A-CLOSE算法 1-频繁项集作为1-生成子G1 for(k=1; Gk??; k++) 连接Gk生成(k+1)-候选生成子CG(k+1); 用min_sup剪枝; 用生成子的性质剪枝; 得到G(k+1); ?FCk=?h(Gk) ; 例子 CLOSET算法—基本性质 J. Pei, et al. CLOSET: An Efficient Algorithm for Mining Frequent Closed Itemsets. DMKD00. 挖掘包含d的闭项集 挖掘包含a但不含d的闭项集 挖掘包含f, 但不含a和d的闭项集 挖掘包含e, 但不含f,a和d的闭项集 挖掘只包含c的闭项集 sup(c)=sup(cf), c不是闭项集。 全体闭项集 {acdf:2, a:3, ae:2, cf:4, cef:3, e:4} CHARM算法 Zaki MJ, Hsiao CJ. CHARM: An Efficient Algorithm for Closed Itemset Mining. SDM’02 使用数据库的垂直表示 同时搜索项集与事务id集合 Itemset-Tidset搜索树 CHARM性质 设X?g(X)和Y?g(Y)为两个itemset-tidset对,则: 若g(X)=g(Y),则h(X)=h(Y)=h(X?Y) 若g(X)?g(Y),则h(X)?h(Y),但h(X)=h(X?Y) 例子 sup(DT)min_sup,删去 * * 数据挖掘技术 Border Infrequent Itemsets Maximal Itemsets 集合枚举树: A称为头,可能的扩展: t(A) = {B,C,D,E} 可能的扩展: t(ABC) = {D,E} ? (ABCD) A (BCD) B (CD) C (D) D () AB (CD) AC (D) AD () BC (D) BD () CD () ABC (C) ABCD () ABD () ACD () BCD () ? (ABCD) ? (ABCD) A (BCD) B (CD) C (D) D () A

文档评论(0)

maritime5 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档