数据挖掘技术第九课常用分类方法.pptVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
主要内容 基于规则的分类 基于实例的分类 基于规则的分类(Rule-Based Classifier) 使用形如“if…then…” 的规则集对记录进行分类。 规则: (Condition) ? y 其中: Condition 是属性-值对的合取 y 是类标记 分类规则的例子: (Blood Type=Warm) ? (Lay Eggs=Yes) ? Birds (Taxable Income 50K) ? (Refund=Yes) ? Evade=No 示例 基于规则的分类的应用 若实例x的属性值满足规则的条件,则称规则r 覆盖了实例x 分类规则的类别 互斥规则(Mutually exclusive rules) 若规则互相独立,则称分类器包含互斥规则 每条记录最多被一条规则所覆盖 无遗漏规则(Exhaustive rules) 若分类器考虑了所有可能的属性值的组合,则该分类器具有无遗漏的覆盖 每条记录至少被一条规则所覆盖 利用规则进行分类 有序规则集 根据优先权对规则进行排序 对一个待分类的记录 若满足多条规则,则使用排在最前面的对其进行分类。 若不满足任何规则,则使用默认类别。 规则排序 基于规则的排序 根据规则的质量进行排序 基于类别的排序 根据规则的类别进行排序 规则的覆盖度与正确性 规则的覆盖度(Coverage): 满足规则条件的记录的百分比 规则的正确性(Accuracy) : 在满足规则条件的记录中,也满足规则结论的记录的百分比 构造分类规则 直接方法: 直接从数据中提取规则 e.g. RIPPER, CN2, Holte’s 1R 间接方法: 从其它分类模型中提取规则 、 e.g. decision trees, neural networks, etc 直接方法: 顺序覆盖 顺序覆盖(Sequential Covering) (1) 初始值为空规则集 (2) 使用Learn-One-Rule函数得到一条新规则 (3) 从训练集中删去被新产生的规则所覆盖的实例 (4) 重复步骤(2)和步骤(3),直到满足停止标准为止。 示例 示例 顺序覆盖的要点 产生规则 消除实例 规则评价 停止标准 规则的剪枝 产生规则 两种常用方法 RIPPER算法 Start from an empty rule: {} = class Add conjuncts that maximizes FOIL’s information gain measure: R0: {} = class (initial rule) R1: {A} = class (rule after adding conjunct) Gain(R0, R1) = t [ log (p1/(p1+n1)) – log (p0/(p0 + n0)) ] where t: number of positive instances covered by both R0 and R1 p0: number of positive instances covered by R0 n0: number of negative instances covered by R0 p1: number of positive instances covered by R1 n1: number of negative instances covered by R1 消除实例 不消除实例? 不消除正例? 不消除负例? 停止标准 停止标准 计算增益 若增益不显著,则舍弃新规则 规则剪枝 与决策树的后剪枝相似 降低错误剪枝: 删去规则的一个合取支(conjunct) 在测试集上比较剪枝前后的错误率 若出错率降低,则剪掉这一合取支 直接方法的总结 产生一条单一规则 根据规则删除实例 若需要,对规则进行剪枝 将规则添加到当前的规则集中 重复,直到满足某种停止条件为止 间接方法 基于规则的分类器的特点 与决策树一样,具有良好的表达能力 易于构造 分类效率高 与决策树的性能相当 主要内容 基于规则的分类 基于实例的分类 基于实例的分类(1) 基于实例的分类(2) 例子: 机械学习(Rote-learner) 记住所有训练数据,只有当类别未知的记录与某训练记录的所有属性的值都匹配时,才对其分类。 最近邻居(Nearest neighbor) 用k个最临近点执行分类。 最近邻居分类(1) 基本思想: If i

文档评论(0)

suijiazhuang2 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档