- 1、本文档共19页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
模式识别第11章独立于算法的机器学习汇编
第十一章 独立于算法的机器学习
11.1 模式识别中的哲学
这里讨论的是一些独立于具体识别算法的一般性原理,但可以适用于任何一个特定的识别方法:
没有免费午餐定理;
丑小鸭定理;
Occam剃刀原理。
没有免费的午餐定理(NFL, No Free Lunch Theorem)
不存在一个与具体应用无关的,普遍适用的“最优分类器”;
学习算法必须要作出一个与问题领域有关的“假设”,分类器必须与问题域相适应。
丑小鸭定理(Ugly Duckling)
不存在与问题无关的“最优”的特征集合或属性集合;
也同样不存在与问题无关的模式之间的“相似性度量”。
Occam剃刀原理
设计者不应该选用比“必要”更加复杂的分类器,“必要”是由训练数据的拟合情况决定的;
在对训练数据分类效果相同时,“简单的”分类器往往优于“复杂的”分类器;
根据“没有免费午餐定理”,不能说“简单的”分类器对“复杂的”分类器具有天生的优越性,但在现实世界中遇到的各种问题,这种优越性往往是存在。
11.2 分类性能评价方法
使用什么样本测试分类器的性能?
如何划分样本集?
两分法:随机地将样本集D划分为不相交的两个集合Dl和Dt,分别用于学习分类器和测试分类器性能。
分类性能评价方法
交叉验证:将样本集D随机地划分为互不相交的k个子集:
使用k-1个子集的样本训练一个分类器;
测试没有参与训练子集的样本;
重复k次取平均。
留一法(刀切法):k = n
D1
…
D2
Dk-1
Dk
Dl
Dt
分类性能评价方法
Bootstrap方法(自助法):
从样本集D中有放回地抽取n个样本用于训练;
从样本集D中有放回地抽取n个样本用于测试;
重复k次取平均。
11.3 分类设计的重采样技术
分类器设计的重采样技术也被称为“自适应的权值重置和组合(arcing, adaptive reweighting and combining);
这类方法的主要思想是利用同一个训练样本集合构造多个分类器,然后以某种方式将这些分类器组合成一个分类器;
主要方法包括:bagging算法和boosting算法
bagging算法
从大小为n的原始数据集D中独立随机地抽取n’个数据(n’n),形成一个自助数据集;
重复上述过程,产生出多个独立的自助数据集;
利用每个自助数据集训练出一个“分量分类器”;
最终的分类结果由这些“分量分类器”各自的判别结果投票决定。
boosting算法
boosting算法同样是利用训练样本集合构造多个分量分类器,它只要求这个分量分类器是一个弱分类器—准确率比平均性能好即可。
2类问题,3个分量分类器的训练算法:
在数量为n的原始样本集D中随机选取n1个样本构成D1,利用D1训练出一个分类器C1;
在样本集D-D1中选择被C1正确分类和错误分类的样本各一半组成样本集D2,用D2训练出一个分类器C2;
将样本集D-D1-D2中所有C1和C2分类结果不同的样本组成样本集D3,训练出一个分类器C3;
boosting的分类算法
对新的样本x进行分类,如果C1和C2判别结果相同,则将x判别为此类别,否则以C3的结果作为x的类别;
原始样本集
分量分类器
组合分类器
AdaBoost方法
AdaBoost(adaptive boosting)是boosting方法的一个重要变形,一般所说的boosting方法均是指AdaBoost;
AdaBoost方法中,设计者可以不断地增加分量分类器,直到达到足够小的错误率为止;
总体分类结果是由各分量分类器加权平均得到,权重由分量分类器的错误率确定。
AdaBoost方法
begin initialize D, kmax, W1(i)?1/n, i=1,…,n;
k?0;
do k?k+1
训练使用按照Wk(i)采样D的弱分类器Ck;
Ek?用Wk(i)采样D的样本集测量Ck的训练误差;
until k=kmax;
end
AdaBoost方法
算法中Wk(i)为每一步迭代中对每个样本的加权,Zk是归一化因子,Ck为第k个分量分类器,αk为对Ck的加权;
总体的判别函数由各分量分类器的加权平均得到:
其中 为Ck分类器给出的判别结果。
AdaBoost方法的推广能力
AdaBoost方法实际上是增加了分类器的复杂程度,但实践表明此方法出现“过拟合”的现象极少,这是此方法最吸引人的地方。
针对特征的Boosting算法
特征选择:就是从一组数量为n的特征中选择出数量为m的最优特征;
最优特征组合的评价标准;
选择出最优特征组合的算法;
Boosting可以作为特征选择的方法。
AdaBoost特征选择算法
Given
您可能关注的文档
- 100000m3储罐防腐保温施工工法选编.doc
- 10000亩枸杞种植基地项目建议书(修改)选编.doc
- 棉花的常见病害汇编.pptx
- 森林法实施条例试卷及条案汇编.docx
- 1000138生物药剂学与药物动力学_第十四章新药的药物动力学研究_1002选编.ppt
- 1000138生物药剂学与药物动力学_第十章多剂量给药_1002选编.ppt
- 1000126波谱分析_HNMR,MS复习题_FX_1002选编.ppt
- 1000KV项目计划书选编.doc
- 棒线材旋流池深基坑专项方案(9.29)汇编.doc
- 1000MHz室内型(J型)一体化分支分配器选编.doc
- 年三年级数学下册第三四单元过关检测卷新人教版.docx
- 第十三章轴对称(复习课)1.ppt
- 15.1.2分式基本性质(2).ppt
- 期末冲刺(补全对话30道).docx
- 【华创证券-2025研报】2025年二季报公募基金十大重仓股持仓分析.pdf
- 【港交所-2025研报】景福集团 截至2025年3月31日止年度年报.pdf
- 【天风证券-2025研报】2025中报前瞻:关注预告日至财报日的景气超额.pdf
- 【国金证券-2025研报】连连数字(02598):跨境支付先行者,前瞻布局虚拟资产.pdf
- 【第一上海证券-2025研报】云工场(02512):云工(02512):IDC方案服务商,边缘云业务打造第二成长曲线.pdf
- 【东方证券-2025研报】主动权益基金2025年二季报全解析:重点关注科技医药双主线和中小盘高成长主题基金.pdf
文档评论(0)