CHAPTER8-分类:基本概念解析.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
CHAPTER8-分类:基本概念解析

* * * * * * * * * * * * * * * * * * * * * * * * * * * * * 第8章:分类:基本概念 基本概念 决策树归纳 贝叶斯分类方法 基于规则的分类 模型评估与选择 提高分类准确率的技术 小结 组合方法: Increasing the Accuracy 集成方法(Ensemble methods) 使用多个模型的组合来提高accuracy 组合多个学习的模型, M1, M2, …, Mk,获得提高的模型M* 基于多个分类器的投票 常用的组合方法 装袋:多个分类器的结果进行多数表决 提升:多个分类器的结果权重投票 * 装袋Bagging 训练 给定包含d个元组的数据D, 在第i次迭代,从D中有放回抽取d个样本组成训练集Di(i.e., bootstrap),从Di学习一个分类器Mi 分类:分类一个未知样本 X 每个分类器 Mi 给出预测结果 装袋分类器M* 计算投票,把得票最多的类分配给X 预测:每个分类器预测的值的平均值 正确性Accuracy 常常优于D 上单个分类器的正确率 对噪音数据: 不会很差,更健壮 Proved improved accuracy in prediction * 提升Boosting 类比:咨询几个医生,在原来的诊断准确性的基础上分配权重,加权诊断的组合为结果 Boosting如何工作? Weights分配给每个训练样本 迭代学习一系列分类器 学习Mi后,权重更新使得,后续得分类器Mi+1更关注于Mi错误分类的训练样本 最后的分类器M*组合了每个独立分类器的投票,其中每个分类器的权重是其正确率的函数 可以扩充Boosting算法用于数值预测 与bagging比较: Boosting倾向于得到更高的准确率,但有过拟合错误分类数据的风险 * * Adaboost 数据集含 d class-labeled 元组,(X1, y1), …, (Xd, yd) 最初,每个元组的权重为1/d k轮中产生k个分类器,其中第i轮: 从D 有放回抽取训练集 Di (大小相等) 每个元组被选中的概率基于其权重 分类模型Mi学习自Di 使用Di为测试集计算误差率 如果一个元组被错分,权重增加,否则下降 误差率: err(Xj)为错误分类元组Xj误差,分类器Mi误差率是元组错误分类的权重和: 分类器Mi投票权重为: 随机森林 Random Forest: 每个分类器为decision tree,在每个结点上使用随机选出的属性来分裂产生判定树 分类时, 每棵树投票得票最多的类返回结果 两种构造方法: Forest-RI (random input selection):每个结点随机选F个属性为分裂的候选,用CART方法产生最大尺寸的树 Forest-RC (random linear combinations):以现有属性的线性组合来产生新属性 (降低了单个分类器间的相关性) 准确率比得上Adaboost,对误差和孤立点更稳健 每次分裂时对选出的候选属性数目不敏感,faster than bagging or boosting * 分类类别不平衡数据集 类别不平衡问题. 传统的方法假定平衡的类别分布和相等的错误代价在很多应用场景下都不适合 二元分类中典型的方法处理不平衡数据: 过采样Oversampling:对正类数据过/多采样 Under-sampling:随机减少负类的样本 阈值-移动Threshold-moving:移动判定阈值t,使得少数类元组更容易识别,减少(昂贵的)假阴性错误的机会 * * 第8章:分类:基本概念 基本概念 决策树归纳 贝叶斯分类方法 基于规则的分类 模型评估与选择 提高分类准确率的技术 小结 * 作业:课后习题8.7、8.12、8.14 Summary (I) Classification is a form of data analysis that extracts models describing important data classes. Effective and scalable methods have been developed for decision tree induction, Naive Bayesian classification, rule-based classification, and many other classification methods. Evaluation metrics include: accuracy, sensitivity, specificity, precision, recall, F measure, and F? measure. Stratified

文档评论(0)

wbjsn + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档