dongleizhao@163com课件.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
dongleizhao@163com课件

基于类关联规则的分类 Classification Based on Class-Association Rules 引言 国际研究现状 基本概念的定义 基于类关联规则的分类(CMAR) TD-FP-Growth挖掘类关联规则 规则剪枝 对测试数据分类 未来工作 参考文献 1. 引言 分类问题 通过分析给定的一个带有类别信息的数据集建立一个分类器. 预测未知类别信息的数据对象. 关联规则是给定数据集中项之间的有趣联系. 基于关联规则的分类, 是利用数据挖掘的方法挖掘数据集中的类关联规则, 然后建立分类器, 并对未知类别数据进行预测. 2. 国际研究现状(1) 1993年Agrawal, Imielinski和Swami [AIS93]提出了关联规则的挖掘, 一个流行的应用领域是购物篮分析. 1994年Agrawal和Srikant [AS94]提出了著名的Apriori算法, 它是一种有效的关联规则挖掘算法, 它探查逐级挖掘Apriori性质: 频繁项集的所有非空子集都应该是频繁的. 在第k次迭代(K1), 它根据频繁K-项集, 形成频繁(k+1)-项集候选, 并扫描数据库一次, 找出完整的频繁(K+1)-项集L(k+1). 1998年Liu, Hsu和Ma [LHM98]提出了CBA算法, 它采用经典的Apriori算法挖掘训练集, 用满足要求的关联规则来构造分类器, 实验[LHM98]表明, CBA算法比C4.5有较好的测试精度. 1999年Dong, Zhang, Wong 和Li [LDR00]提出了CAEP算法, 使用项集支持度挖掘显露模式来构造分类器, 2000年Li, Dong, 和Rmamohanarao [LDR00]提出了基于跳跃显露模式JEP分类法. 1999年Meretakis和Wuthrich [MW99]将大项集应用于朴素贝叶斯分类, 实验[MW99]表明, 在测试精度上要优于C4.5, CBA和TAN(a Bayesian network extension of Na?ve Bayes) 国际研究现状(2) 1999年Wang, Zhou和He [WZH99]提出了基于关联的决策树, 它首先产生满足置信度的所有关联规则, 然后以精度驱使约剪规则. 2000年Han, Pei和Yin [HPY00]提出FP-Growth算法, 它是一种不产候选的挖掘频繁项集方法, 实验[HPY00]表明, FP-Growth算法比Apriori算法获得更好的效率, 是目前最流行的挖掘频繁项集的算法. 2001年Li, Han和Pei [LHP01]提出了CMAR算法, 它是基于扩展FP-Growth算法来有效的挖掘类关联规则, 采用多条匹配的类关联规则来预测新的样例, 实验 [LHP01]表明, CMAR的测试精度优于C4.5和CBA. 2003年Yin和Han [YH03]提出了CPAR算法, 它扩展了FOIL算法, 产生了较小规模的关联规则, 引入了期望精度的方法来评价规则, 预测新的样例. 2005年Wang和Karypis [WK05]提出了HARMONY算法, 它直接产生覆盖样例具有最高置信度的类关联规则, 大大提高剪枝的效率. 3. 基本概念的定义 4. 基于类关联规则的分类(CMAR) 基于类关联规则的分类(CMAR)主要包括四个步骤: 如果是连续的属性值, 需要将其离散化, 或者称数据的预处理. 挖掘所有的满足支持度和置信度的类关联规则. 基于已经产生的关联规则, 通过剪枝建立一个分类器. 利用分类器对未知类别数据进行分类. 4.1. 挖掘类关联规则 4.1.1 FP-Tree构造过程 4.1.2 TD-FP-Growth算法 4.1.3 存储类关联规则 4.2. 规则剪枝(1) 规则剪枝(2) 规则剪枝(3) 4.3. 对测试数据分类 4.3.1. 匹配样例规则子集的选择 Algorithm2: Multiple-rule selection Input: A selected rule set generated by Algorithm 1, and a new tuple Output: A multiple-rule set 1. for each rule r in the selected rule set in sorted order { 2. If r matches the new tuple 3. If (the size of multiple-rule set Coverage Threshold ) or (the confidence of the top rule in multiple-rule set minus r’

文档评论(0)

gm8099 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档