5挖掘频繁模式、关联和相关.pptVIP

  1. 1、本文档共57页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
FP树挖掘——构建条件FP树 对每个条件模式基 为基中的每一项累积计数 为模式基中的频繁项构建FP树 m-条件模式基: fca:2, fcab:1 {} f:3 c:3 a:3 m-条件FP-树 所有关于m的频繁模式: m, fm, cm, am, fcm, fam, cam, fcam ? ? {}null f:4 c:1 b:1 p:1 b:1 c:3 a:3 b:1 m:2 p:2 m:1 项头表 Item frequency head f 4 c 4 a 3 b 3 m 3 p 3 多层关联规则 (1) 数据项中经常会形成概念分层 底层的数据项,其支持度往往也较低 这意味着挖掘底层数据项之间的关联规则必须定义不同的支持度 All Computer accessory software laptop financial mouse color printer computer desktop IBM edu. Microsoft b/w HP Sony wrist pad Logitech TID Items T1 {IBM D/C, Sony b/w} T2 {Ms. edu. Sw., Ms. fin. Sw.} T3 {Logi. mouse, Ergoway wrist pad} T4 {IBM D/C, Ms. Fin. Sw.} T5 {IBM D/C} Ergoway 多层关联规则 (2) 在适当的等级挖掘出来的数据项间的关联规则可能是非常有用的 通常,事务数据库中的数据也是根据维和概念分层来进行储存的 这为从事务数据库中挖掘不同层次的关联规则提供了可能。 在多个抽象层挖掘关联规则,并在不同的抽象层进行转化,是数据挖掘系统应该提供的能力 挖掘多层关联规则的方法 通常,多层关联规则的挖掘还是使用置信度-支持度框架,可以采用自顶向下策略 请注意:概念分层中,一个节点的支持度肯定不小于该节点的任何子节点的支持度 由概念层1开始向下,到较低的更特定的概念层,对每个概念层的频繁项计算累加计数 每一层的关联规则挖掘可以使用Apriori等多种方法 例如: 先找高层的关联规则:computer - printer [20%, 60%] 再找较低层的关联规则:laptop - color printer [10%, 50%] 多层关联——一致支持度 一致支持度:对所有层都使用一致的最小支持度 优点:搜索时容易采用优化策略,即一个项如果不满足最小支持度,它的所有子项都可以不用搜索 缺点:最小支持度值设置困难 太高:将丢掉出现在较低抽象层中有意义的关联规则 太低:会在较高层产生太多的无兴趣的规则 多层关联——递减支持度 使用递减支持度,可以解决使用一致支持度时在最小支持度值上设定的困难 递减支持度:在较低层使用递减的最小支持度 每一层都有自己的一个独立的最小支持度 抽象层越低,对应的最小支持度越小 Computer [support=10%] Laptop [support=6%] Desktop [support=4%] min_sup = 5% min_sup = 5% min_sup = 3% 多层关联——基于分组的支持度 用户和专家清楚哪些分组比其他分组更加重要,在挖掘多层关联规则时,使用用户指定的基于项或者基于分组的最小支持度阈值 E.g. 对laptop_computer或者flash_drives设置特别低的支持度阈值,以便特别关注这类商品的管理模式 检查冗余的多层关联规则 挖掘多层关联规则时,由于项间的“祖先”关系,有些发现的规则将是冗余的 例如: desktop computer = b/w printer [sup=8%, con=70%] (1) IBM desktop computer = b/w printer [sup=2%, con=72%] (2) 上例中,我们说第一个规则是第二个规则的“祖先” 如果规则(2)中的项用它在概念分层中的“祖先”代替,能得到(1),而且(1)的支持度和置信度都接近“期望”值,则(1)是冗余的。 多维关联规则——概念 单维关联规则: buys(X, “milk”) = buys(X, “bread”) 多维关联规则:涉及两个或多个维或谓词的关联规则 维间关联规则:不包含重复的谓词 age(X,”19-25”) ∧occupation(X,“student”) = buys(X,“coke”) 混合维关联规则:包含某些谓词的多次出现 age(X,”19-25”) ∧buys(X, “popcorn”) = buys(X, “coke”) 在多维关联规则挖掘中,我们搜索的不是频繁项集,而是频繁谓词集。k-谓词集是包含k个合取谓词的集合。 例如:{age,

文档评论(0)

tt435678 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档