数据挖掘技术第九课常用分类方法.pptVIP

下载本文档

15
0
约4.38千字
约 36页
2016-12-24 发布于天津
举报
版权申诉

数据挖掘技术第九课常用分类方法.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

主要内容基于规则的分类基于实例的分类基于规则的分类（Rule-Based Classifier）使用形如“if…then…” 的规则集对记录进行分类。规则: (Condition) ? y 其中: Condition 是属性-值对的合取 y 是类标记分类规则的例子: (Blood Type=Warm) ? (Lay Eggs=Yes) ? Birds (Taxable Income 50K) ? (Refund=Yes) ? Evade=No 示例基于规则的分类的应用若实例x的属性值满足规则的条件，则称规则r 覆盖了实例x 分类规则的类别互斥规则(Mutually exclusive rules) 若规则互相独立，则称分类器包含互斥规则每条记录最多被一条规则所覆盖无遗漏规则(Exhaustive rules) 若分类器考虑了所有可能的属性值的组合，则该分类器具有无遗漏的覆盖每条记录至少被一条规则所覆盖利用规则进行分类有序规则集根据优先权对规则进行排序对一个待分类的记录若满足多条规则，则使用排在最前面的对其进行分类。若不满足任何规则，则使用默认类别。规则排序基于规则的排序根据规则的质量进行排序基于类别的排序根据规则的类别进行排序规则的覆盖度与正确性规则的覆盖度(Coverage): 满足规则条件的记录的百分比规则的正确性(Accuracy) : 在满足规则条件的记录中，也满足规则结论的记录的百分比构造分类规则直接方法: 直接从数据中提取规则 e.g. RIPPER, CN2, Holte’s 1R 间接方法: 从其它分类模型中提取规则、 e.g. decision trees, neural networks, etc 直接方法: 顺序覆盖顺序覆盖(Sequential Covering) (1) 初始值为空规则集 (2) 使用Learn-One-Rule函数得到一条新规则 (3) 从训练集中删去被新产生的规则所覆盖的实例 (4) 重复步骤(2)和步骤(3)，直到满足停止标准为止。示例示例顺序覆盖的要点产生规则消除实例规则评价停止标准规则的剪枝产生规则两种常用方法 RIPPER算法 Start from an empty rule: {} = class Add conjuncts that maximizes FOIL’s information gain measure: R0: {} = class (initial rule) R1: {A} = class (rule after adding conjunct) Gain(R0, R1) = t [ log (p1/(p1+n1)) – log (p0/(p0 + n0)) ] where t: number of positive instances covered by both R0 and R1 p0: number of positive instances covered by R0 n0: number of negative instances covered by R0 p1: number of positive instances covered by R1 n1: number of negative instances covered by R1 消除实例不消除实例? 不消除正例? 不消除负例? 停止标准停止标准计算增益若增益不显著，则舍弃新规则规则剪枝与决策树的后剪枝相似降低错误剪枝: 删去规则的一个合取支(conjunct) 在测试集上比较剪枝前后的错误率若出错率降低，则剪掉这一合取支直接方法的总结产生一条单一规则根据规则删除实例若需要，对规则进行剪枝将规则添加到当前的规则集中重复，直到满足某种停止条件为止间接方法基于规则的分类器的特点与决策树一样，具有良好的表达能力易于构造分类效率高与决策树的性能相当主要内容基于规则的分类基于实例的分类基于实例的分类（1）基于实例的分类（2）例子: 机械学习(Rote-learner) 记住所有训练数据，只有当类别未知的记录与某训练记录的所有属性的值都匹配时，才对其分类。最近邻居(Nearest neighbor) 用k个最临近点执行分类。最近邻居分类（1）基本思想: If i