数据挖掘 基于关联的分类方法.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘 基于关联的分类方法

7.6基于源于关联规则挖掘概念的分类 7.7其它分类方法 -7.7.1 k-最临近分类 -7.7.2基于案例的推理 -7.7.3遗传算法 -7.7.4粗糙集方法 -7.7.5模糊集方法 制作者:张华 杜玉锋 2012.04.16 7.6基于源于关联规则挖掘概念的分类 7.7其它分类方法 -7.7.1 k-最临近分类 -7.7.2基于案例的推理 -7.7.3遗传算法 -7.7.4粗糙集方法 -7.7.5模糊集方法 7.6 基于源于关联规则挖掘概念的分类 基于关联规则分类: (1)关联规则聚类系统(ARCS): 量化关联规 则挖掘和关联规则聚类 (2)关联分类:它挖掘形如“cond_set=y”具有高 支持度和高置信度的规则,这里y是一个类标号 挖掘关联规则使用的支持度概念分类: (3)通过聚集显露模式分类( CAEP ) 基于最小支持度和增长率挖掘显露模式(Eps) 7.6 基于源于关联规则挖掘概念的分类 1.基于聚类挖掘关联规则(ARCS) (1)ARCS挖掘形如Aquant1∧Aquant2=Acat的关联规则 (2)用ARCS产生的聚类关联规则用于分类 7.6 基于源于关联规则挖掘概念的分类 1.基于聚类挖掘关联规则 特点: 限制条件:ARCS的准确性与离散化程度有关 可扩展性:可 时间:相比之下,C4.5具有指数运行时间 空间:相比之下,C4.5要求整个数据库(乘以某个因子)全部装入内存 7.6 基于源于关联规则挖掘概念的分类 2.关联分类 概念: 挖掘形如condset=y的规则;其中,condset 是项(或属性值对)的集合,而y是类标号 满足最小支持度的规则是频繁的 满足最小置信度的规则是精确的 如果一个规则项集具有相同的condset,则选择具有最高置信度的规则作为可能规则(PR),代表该集合 7.6 基于源于关联规则挖掘概念的分类 2.关联分类 挖掘高支持度和高置信度的规则 (1)找出所有频繁的,精确地可能规则(PR)集合。算法使用迭代方法,类似于6.2.1小节介绍的Apriori使用的方法,先验知识用于裁减规则搜索。 (2)使用一种启发式方法构造分类。这里,发现的规则根据支持度和置信度按递减的优先次序组织。 (3)对一个新的样本进行分类时,满足该样本的第一个规则用于对它分类。分类法也包含省缺规则,它具有最低的优先次序,用来为不被分类法中其它规则满足的新样本指定一个省缺的类。 7.6 基于源于关联规则挖掘概念的分类 3.CAEP(通过聚集显露模式分类) 使用项集支持度挖掘显露模式(EP)构造分类。 显露模式(EP):是一个项集(项的集合),其支持度由一个类到另一个类显著增加。两个支持度的比称作EP的增长率。 例如,假定我们有顾客数据集,包含类buys_computer=“yes”或C1和buys_computer=“no”或C2。 项集{age=“=30”,students=“no”}是一个典型的EP,其支持度由在C1中的0.2%增长到在C2中的57.6%,增长率57.6%/0.2%=288.如果一个新样本X包含在上面的EP中,我们可以说X属于C2的几率为57.6%/(0.2+57.6%)=99.6%。 7.6 基于源于关联规则挖掘概念的分类 3.CAEP(通过聚集显露模式分类) CAEP如何使用EP建立分类法? 在对一个新样本X分类时,对于每个类C,对出现在X中的类C的EP的区分能力聚集,得到C的得分,然后对得分规格化。具有最大规格化得分的类决定X的类标号。 7.7.1 k-最临近分类 7.7.1 k-最临近分类 针对连续值,返回计算k个最近邻居的平均值 对于离散值,返回最近的k个训练样例的最公共的值 7.7.2 基于案例的推理(case-based reasoning CBR) 7.7..2 基于案例的推理(case-based reasoning CBR) 如果案例用图描绘 这涉及搜索类似于新案例的子图。基于案例的推理试图组合临近的训练案例,提出新案例的解。如 果解之间出现不相容,可能需要退回搜索其它解。基于案例的推理可能使用背景知识和问题求解策 略,以便提出可行的组合解。 基于案例的推理存在的挑战包括找到一个好的相似矩阵(例如,为匹配子图),开发对训练案 例索引的有效技术和组

文档评论(0)

ligennv1314 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档