dongleizhao@163com课件.pptVIP

下载本文档

15
0
约8.14千字
约 19页
2017-08-19 发布于河南
举报
版权申诉

dongleizhao@163com课件.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

dongleizhao@163com课件

基于类关联规则的分类Classification Based on Class-Association Rules 引言国际研究现状基本概念的定义基于类关联规则的分类(CMAR) TD-FP-Growth挖掘类关联规则规则剪枝对测试数据分类未来工作参考文献 1. 引言分类问题通过分析给定的一个带有类别信息的数据集建立一个分类器. 预测未知类别信息的数据对象. 关联规则是给定数据集中项之间的有趣联系. 基于关联规则的分类, 是利用数据挖掘的方法挖掘数据集中的类关联规则, 然后建立分类器, 并对未知类别数据进行预测. 2. 国际研究现状(1) 1993年Agrawal, Imielinski和Swami [AIS93]提出了关联规则的挖掘, 一个流行的应用领域是购物篮分析. 1994年Agrawal和Srikant [AS94]提出了著名的Apriori算法, 它是一种有效的关联规则挖掘算法, 它探查逐级挖掘Apriori性质: 频繁项集的所有非空子集都应该是频繁的. 在第k次迭代(K1), 它根据频繁K-项集, 形成频繁(k+1)-项集候选, 并扫描数据库一次, 找出完整的频繁(K+1)-项集L(k+1). 1998年Liu, Hsu和Ma [LHM98]提出了CBA算法, 它采用经典的Apriori算法挖掘训练集, 用满足要求的关联规则来构造分类器, 实验[LHM98]表明, CBA算法比C4.5有较好的测试精度. 1999年Dong, Zhang, Wong 和Li [LDR00]提出了CAEP算法, 使用项集支持度挖掘显露模式来构造分类器, 2000年Li, Dong, 和Rmamohanarao [LDR00]提出了基于跳跃显露模式JEP分类法. 1999年Meretakis和Wuthrich [MW99]将大项集应用于朴素贝叶斯分类, 实验[MW99]表明, 在测试精度上要优于C4.5, CBA和TAN(a Bayesian network extension of Na?ve Bayes) 国际研究现状(2) 1999年Wang, Zhou和He [WZH99]提出了基于关联的决策树, 它首先产生满足置信度的所有关联规则, 然后以精度驱使约剪规则. 2000年Han, Pei和Yin [HPY00]提出FP-Growth算法, 它是一种不产候选的挖掘频繁项集方法, 实验[HPY00]表明, FP-Growth算法比Apriori算法获得更好的效率, 是目前最流行的挖掘频繁项集的算法. 2001年Li, Han和Pei [LHP01]提出了CMAR算法, 它是基于扩展FP-Growth算法来有效的挖掘类关联规则, 采用多条匹配的类关联规则来预测新的样例, 实验 [LHP01]表明, CMAR的测试精度优于C4.5和CBA. 2003年Yin和Han [YH03]提出了CPAR算法, 它扩展了FOIL算法, 产生了较小规模的关联规则, 引入了期望精度的方法来评价规则, 预测新的样例. 2005年Wang和Karypis [WK05]提出了HARMONY算法, 它直接产生覆盖样例具有最高置信度的类关联规则, 大大提高剪枝的效率. 3. 基本概念的定义 4. 基于类关联规则的分类(CMAR) 基于类关联规则的分类(CMAR)主要包括四个步骤：如果是连续的属性值, 需要将其离散化, 或者称数据的预处理. 挖掘所有的满足支持度和置信度的类关联规则. 基于已经产生的关联规则, 通过剪枝建立一个分类器. 利用分类器对未知类别数据进行分类. 4.1. 挖掘类关联规则 4.1.1 FP-Tree构造过程 4.1.2 TD-FP-Growth算法 4.1.3 存储类关联规则 4.2. 规则剪枝(1) 规则剪枝(2) 规则剪枝(3) 4.3. 对测试数据分类 4.3.1. 匹配样例规则子集的选择 Algorithm2: Multiple-rule selection Input: A selected rule set generated by Algorithm 1, and a new tuple Output: A multiple-rule set 1. for each rule r in the selected rule set in sorted order { 2. If r matches the new tuple 3. If (the size of multiple-rule set Coverage Threshold ) or (the confidence of the top rule in multiple-rule set minus r’