- 1、本文档共44页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第6章组合分类器
主要内容6.1组合分类器的设计6.2Bagging算法6.3随机森林6.4Boosting算法6.5组合分类的实例
输入样本个体分类器1个体分类器2?个体分类器M组合分类输出结果6.1组合分类器的设计(1)基本概念组合分类器:构建一组单独的分类器(个体),整合各个体分类器决策结果,以获得更好的性能。组合分类器示意图
6.1组合分类器的设计个体分类器为同一种称为同质,反之称为异质要求:多样性,不同个体分类器间的分类结果具有差异性准确性,个体分类器具有较好的分类性能设计要点:个体分类器的差异设计分类器性能度量组合策略(1)基本概念
(2)个体分类器的差异设计6.1组合分类器的设计数据样本扰动留出法获取不同的训练样本集,设计多个个体分类器将数据集X划分为两个互斥子集,分别作为训练集和测试集,多次随机划分,用不同的训练集训练个体分类器。
6.1组合分类器的设计交叉验证法?自举法可重复采样在数据集较小、难以有效划分时很有用,但是新的数据集改变了初始数据集的分布,会引入估计偏差
6.1组合分类器的设计样本属性扰动随机选择训练样本部分维的数据,构成若干属性子集,基于每个属性子集训练个体分类器。属性个数减少而降低计算量,节省时间开销。由于属性间的冗余性,减少一些属性后依然能保证分类器的性能。如果数据本身属性较少,或者冗余性低,则不适合采用这种方法。特点
6.1组合分类器的设计参数扰动通过随机设置分类器的参数,产生差异性较大的个体分类器。
(3)分类器性能度量6.1组合分类器的设计真实状态决策结果正例负例正例真正例(TP)假负例(FN)负例假正例(FP)真负例(TN)二分类时状态与决策的可能关系正确率:错误率:
6.1组合分类器的设计查准率、查全率及相关性能度量查准率:查全率:真实状态决策结果正例负例正例真正例(TP)假负例(FN)负例假正例(FP)真负例(TN)查准率(Precision)和查全率(Recall)相互矛盾,不能同时得到最优值,往往查全率越高,查准率越低;查全越低,查准率越高。
PR曲线和RP图:取不同阈值,得多组R、P值,以R作横轴,以P为纵轴,作图,越靠右上方,性能越好AP:RP曲线下的面积6.1组合分类器的设计F1度量:?0和1之间,越大性能越好?
ROC曲线及相关性能度量6.1组合分类器的设计真正例率假正例率真实状态决策结果正例负例正例真正例(TP)假负例(FN)负例假正例(FP)真负例(TN)ROC(ReceiverOperatingCharacteristic)曲线:取不同阈值,得多组TPR、FPR值,以FPR作横轴,以TPR为纵轴,作图,越靠左上方,性能越好AUC:ROC曲线下的相对面积
其他性能度量6.1组合分类器的设计决策错误带来的损失,称为代价矩阵。计算复杂度,一般通过比较分类器在执行过程中耗费的CPU总数来实现。分类器的鲁棒性:能否处理含有噪声的或不完整的数据。使用不同的性能度量评价不同的方面,但不能简单地定义分类器的好坏,需要根据具体的任务需求、数据分布特点等,选择合适的分类器。
(4)组合策略6.1组合分类器的设计采用一定的方式将不同分类器的输出组合,常用的有平均规则、投票规则、加权处理等方法。平均规则或者?
6.1组合分类器的设计投票规则绝对多数投票法:??
6.1组合分类器的设计投票规则相对多数投票法:加权投票法:
6.1组合分类器的设计基于贝叶斯决策思路的组合策略样本x在分类器的输入:不同类型的分类器输出的类概率值不能直接进行比较,可以转化为类标记输出进行投票
6.2Bagging算法BootstrapAggregating,多次采样同一数据集得到多组数据,分别进行训练得到若干弱分类器,再通过对弱分类器结果投票得到强分类器特点:并行(1)基本概念
例6-5:有12个血压数据,如表所示,用三个最小距离分类器设计Bagging组合分类器。6.2Bagging算法序号123456血压(100,70)(119,80)(99,78)(105,75)(125,82)(123,85)是否高血压否否否否否否序号789101112血压(145,76)(123,92)(115,98)(150,80)(138,100)(144,97)是否高血压是是是是是是(2)例题
设计一设计最小距离分类器一???决策抽样6.2Bagging算法随机自举采样,两类各自抽取4个样本,序号为6、6、5、2、10、7、9、8
???设计二设计最小距离分类器二决策抽样随机自举采样,两类各自抽取4个样本,序号为1、2、3、1、10、9、11、116.2Bagging算法
???设计三设计最小距离分类器三决策抽样随机自举采样,两类各自抽取4个样本,序号为4、6、4、6、8、11、8、116.2Bag
您可能关注的文档
- 模式识别教学大纲.doc
- 模式识别实验指导.doc
- 模式识别 教学建议.docx
- 模式识别 课件 第1章 绪论.pptx
- 模式识别 课件 第2章 贝叶斯决策.pptx
- 模式识别 课件 第3章 概率密度函数的估计.pptx
- 模式识别 课件 第4章 线性判别分析.pptx
- 模式识别 课件 第5章 非线性判别分析.pptx
- 模式识别 课件 第7章 无监督模式识别.pptx
- 模式识别 课件 第8章 特征选择.pptx
- 苏教版8年级上册数学全册教学课件(2021年10月修订).pptx
- 比师大版数学4年级下册全册教学课件.pptx
- 冀教版5年级上册数学全册教学课件.pptx
- 办公室普通党员2024年组织生活会个人对照检查发言材料供参考.docx
- 领导班子成员2025年组织生活会“四个带头”对照检查材料范文.docx
- 2024年度专题组织生活会个人“四个带头”对照检查材料范文.docx
- 党支部领导班子2025年民主生活会“四个带头”个人对照检查材料范文.docx
- 2024年抓基层党建工作述职报告参考范文.docx
- 2024年度民主生活会征求意见情况的报告范文2篇.docx
- 普通党员2024年组织生活会个人“四个带头”对照检查发言材料2篇.docx
文档评论(0)