第5章节 分类 其他技术.ppt

  1. 1、本文档共134页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第5章节 分类 其他技术

数据挖掘:概念与技术 数据挖掘导论 Pang-ning Tan, Michael Stieinbach, and Vipin Kumar著 Pearson Education LTD. 范明 等译 人民邮电出版社 第5章 分类: 其他技术 基于规则的分类 最近邻分类 贝叶斯分类 神经网络 支持向量机 组合方法 不平衡类问题 多类问题 5.1 基于规则的分类器 基于规则的分类器 使用一组 “if…then…” 规则进行分类 规则: (Condition) ? y 其中 Condition 是属性测试的合取 y 是类标号 左部: 规则的前件或前提 右部: 规则的结论 分类规则的例子: (Blood Type=Warm) ? (Lay Eggs=Yes) ? Birds (Taxable Income 50K) ? (Refund=Yes) ? Evade =No 基于规则的分类器: 例 脊椎动物数据集 基于规则的分类器的使用 规则 r 覆盖 实例 x,如果该实例的属性满足规则r的条件 r1:(胎生 = 否)?(飞行动物 = 是)→ 鸟类 r2:(胎生 = 否)?(水生动物 = 是)→ 鱼类 r3:(胎生 = 是)?(体温 = 恒温)→ 哺乳类 r4:(胎生 = 否)?(飞行动物 = 否)→ 爬行类 r5:(水生动物 = 半)→ 两栖类 规则r1覆盖“鹰” = 鸟类 规则r3 覆盖“灰熊” = 哺乳类 规则的质量 用覆盖率和准确率度量 规则的覆盖率(coverage) : 满足规则前件的记录所占的比例 规则的准确率(accuracy) : 在满足规则前件的记录中,满足规则后件的记录所占的比例 规则: (Status=Single) ? No Coverage = 40%, Accuracy = 50% 如何用规则分类 一组规则 r1:(胎生 = 否)?(飞行动物 = 是)→ 鸟类 r2:(胎生 = 否)?(水生动物 = 是)→ 鱼类 r3:(胎生 = 是)?(体温 = 恒温)→ 哺乳类 r4:(胎生 = 否)?(飞行动物 = 否)→ 爬行类 r5:(水生动物 = 半)→ 两栖类 待分类记录 狐猴触发规则 r3, 它分到哺乳类 海龟触发规则r4和 r5----冲突 狗鲨未触发任何规则 规则的分类器的特征 互斥规则集 每个记录最多被一个规则覆盖 如果规则都是相互独立的,分类器包含互斥规则 如果规则集不是互斥的 一个记录可能被多个规则触发 如何处理? 有序规则集 基于规则的序 vs 基于类的序 无序规则集 – 使用投票策略 规则的分类器的特征(续) 穷举规则集 每个记录至少被一个规则覆盖 如果规则集涵盖了属性值的所有可能组合,则规则集具有穷举覆盖 如果规则集不是穷举的 一个记录可能不被任何规则触发 如何处理? 使用缺省类 有序规则集 根据规则优先权将规则排序定秩(rank) 有序规则集又成决策表(decision list) 对记录进行分类时 由被触发的,具有最高秩的规则确定记录的类标号 如果没有规则被触发,则指派到缺省类 规则定序方案 基于规则的序 根据规则的质量排序 基于类的序 属于同一类的规则放在一起 基于类信息(如类的分布、重要性)对每类规则排序 如何建立基于规则的分类器 直接方法: 直接由数据提取规则 例如: RIPPER, CN2, Holte’s 1R 间接方法: 由其他分类模型提取规则 (例如,从决策树、神经网络等). 例如: C4.5rules 直接方法: 顺序覆盖 基本思想 依次对每个类建立一个或多个规则 对第i类建立规则 第i类记录为正例,其余为负例 建立一个第i类的规则r,尽可能地覆盖正例,而不覆盖负例 删除r覆盖的所有记录,在剩余数据集上学习下一个规则,直到所有第i类记录都被删除 直接方法: 顺序覆盖 顺序覆盖(sequential covering)算法 1:令E是训练记录,A是属性—值对的集合{(Aj, vj)} 2:令Yo是类的有序集{y1, y2,..., yk} 3:令R = {}是初始规则列表 4:for 每个类 y∈Yo ? {yk} do 5: while 终止条件不满足 do 6: r ← Learn-One-Rule (E, A, y) 7: 从E中删除被r覆盖的训练记录 8: 追加r到规则列表尾部:R?R ? r 9: end while 10:end for 11:把默认规则{}→yk插入到规则列表R尾部 顺序覆盖: 例 删除实例 为什么要删除实例? 否则, 下一个规则将与前面的规则相同 为什么删除正实例? 确保下一个规则不同 为什么删除负实例? 防止低

您可能关注的文档

文档评论(0)

ctuorn0371 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档