- 1、本文档共85页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
数据挖掘概念与技术 CHAPTER6-分类 基本概念
Issues: Evaluating Classification Methods Accuracy classifier accuracy: predicting class label predictor accuracy: guessing value of predicted attributes Speed time to construct the model (training time) time to use the model (classification/prediction time) Robustness: handling noise and missing values Scalability: efficiency in disk-resident databases Interpretability understanding and insight provided by the model Other measures, e.g., goodness of rules, such as decision tree size or compactness of classification rules 属性选择度量 属性选择度量 分裂规则,决定给定节点上的元组如何分裂 具有最好度量得分的属性选定位分裂属性 三种度量 信息增益、增益率、Gini指标 数学符号 D为元组的训练集,元组属于m个不同的类Ci(i=1,,,m) Ci,D是D中的Ci类的元组集合 |Ci,D|和|D|分别表示各自的元组个数 如何学习一个规则? 从可能的最一般的规则开始: condition = empty 采用贪心的深度优先策略添加新属性(于规则中) 选择对“规则质量” 提高最大的那个属性 * * * * * * * * * * * * * * * I : the expected information needed to classify a given sample E (entropy) : expected information based on the partitioning into subsets by A * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * 集成方法: Increasing the Accuracy 集成方法 Ensemble methods 使用多个模型的组合来提高accuracy 组合多个学习的模型, M1, M2, …, Mk,来获得一个提高的模型M* Popular ensemble methods 装袋Bagging: 多个分类器的结果进行多数表决 提升Boosting: 多个分类器的结果权重投票 集成Ensemble: combining a set of heterogeneous classifiers * 装袋Bagging 训练 给定包含d个元组的数据D, 在第 i次迭代,从D中有放回抽取d个样本组成训练集Di (i.e., bootstrap), 从Di 学习一个分类器Mi 分类: 分类一个未知样本 X 每个分类器 Mi 给出预测结果 装袋分类器M* 计算投票,把得票最多的类分配给X 预测: 每个分类器预测的值的平均值 正确性Accuracy 常常优于D 上单个分类器的正确率 对噪音数据: 不会很差,更健壮 Proved improved accuracy in prediction * 提升 Boosting 类比:咨询几个医生,在原来的诊断准确性的基础上分配权重,加权诊断的组合为结果 Boosting如何工作? Weights 分配给每个训练样本 迭代学习一系列分类器 学习Mi 后, 权重更新使得,后续得分类器Mi+1更关注于Mi错误分类的训练样本 最后的分类器M* 组合了每个独立分类器的投票,其中每个分类器的权重势其正确率的函数 可以扩充Boosting 算法用于数值预测 与bagging比较: Boosting倾向于得到更高的准确率, 但有过拟合错误分类数据的风险 * * Adaboost (Freund and Schapire, 1997) 数据集含 d class-labeled 元组, (X1, y1), …, (Xd, yd) 最初, 每个元组的权重为1/d 在k轮中产生 k classifiers. 在第 i轮, 从D 有放回抽取训练集 Di (大小相等 每个元组被选中的概率基于其权重 分类模型Mi 学习自Di 使用Di为测试集计算误差率 如果一个元组被错分,权重增加, o.w. 否则下降 误差率: err(Xj) 为错误分类元组Xj误差,分类器Mi 误差率是
您可能关注的文档
最近下载
- 实验室检测培训总结.docx VIP
- 大学学110周年庆典综艺晚会舞美灯光音响舞台工程投标文件(技术标).docx
- 《中华人民共和国安全生产法》试题.doc VIP
- 公路工程质量检验评定标准(JTG F801-2017)培训课件.pptx
- ASCO 胰腺癌领域治疗新进展.pptx
- 高三读后续写题库练习题55篇(含范文解析).pdf VIP
- 2024届湖北省七市州高三3月联考语文试题评讲课件.pptx
- 食品生产企业食品安全主要主体责任清单、每日食品安全检查记录.pdf VIP
- 急性上消化道出血急诊诊治流程--危重病课件.ppt
- 湖北省七市州2024届高三下学期3月联考二模语文试题及答案解析.docx
文档评论(0)