数据挖掘概念与技术 CHAPTER6-分类 基本概念.ppt

数据挖掘概念与技术 CHAPTER6-分类 基本概念.ppt

  1. 1、本文档共85页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘概念与技术 CHAPTER6-分类 基本概念

Issues: Evaluating Classification Methods Accuracy classifier accuracy: predicting class label predictor accuracy: guessing value of predicted attributes Speed time to construct the model (training time) time to use the model (classification/prediction time) Robustness: handling noise and missing values Scalability: efficiency in disk-resident databases Interpretability understanding and insight provided by the model Other measures, e.g., goodness of rules, such as decision tree size or compactness of classification rules 属性选择度量 属性选择度量 分裂规则,决定给定节点上的元组如何分裂 具有最好度量得分的属性选定位分裂属性 三种度量 信息增益、增益率、Gini指标 数学符号 D为元组的训练集,元组属于m个不同的类Ci(i=1,,,m) Ci,D是D中的Ci类的元组集合 |Ci,D|和|D|分别表示各自的元组个数 如何学习一个规则? 从可能的最一般的规则开始: condition = empty 采用贪心的深度优先策略添加新属性(于规则中) 选择对“规则质量” 提高最大的那个属性 * * * * * * * * * * * * * * * I : the expected information needed to classify a given sample E (entropy) : expected information based on the partitioning into subsets by A * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 集成方法: Increasing the Accuracy 集成方法 Ensemble methods 使用多个模型的组合来提高accuracy 组合多个学习的模型, M1, M2, …, Mk,来获得一个提高的模型M* Popular ensemble methods 装袋Bagging: 多个分类器的结果进行多数表决 提升Boosting: 多个分类器的结果权重投票 集成Ensemble: combining a set of heterogeneous classifiers * 装袋Bagging 训练 给定包含d个元组的数据D, 在第 i次迭代,从D中有放回抽取d个样本组成训练集Di (i.e., bootstrap), 从Di 学习一个分类器Mi 分类: 分类一个未知样本 X 每个分类器 Mi 给出预测结果 装袋分类器M* 计算投票,把得票最多的类分配给X 预测: 每个分类器预测的值的平均值 正确性Accuracy 常常优于D 上单个分类器的正确率 对噪音数据: 不会很差,更健壮 Proved improved accuracy in prediction * 提升 Boosting 类比:咨询几个医生,在原来的诊断准确性的基础上分配权重,加权诊断的组合为结果 Boosting如何工作? Weights 分配给每个训练样本 迭代学习一系列分类器 学习Mi 后, 权重更新使得,后续得分类器Mi+1更关注于Mi错误分类的训练样本 最后的分类器M* 组合了每个独立分类器的投票,其中每个分类器的权重势其正确率的函数 可以扩充Boosting 算法用于数值预测 与bagging比较: Boosting倾向于得到更高的准确率, 但有过拟合错误分类数据的风险 * * Adaboost (Freund and Schapire, 1997) 数据集含 d class-labeled 元组, (X1, y1), …, (Xd, yd) 最初, 每个元组的权重为1/d 在k轮中产生 k classifiers. 在第 i轮, 从D 有放回抽取训练集 Di (大小相等 每个元组被选中的概率基于其权重 分类模型Mi 学习自Di 使用Di为测试集计算误差率 如果一个元组被错分,权重增加, o.w. 否则下降 误差率: err(Xj) 为错误分类元组Xj误差,分类器Mi 误差率是

文档评论(0)

ctuorn0371 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档