- 5
- 0
- 约4.36千字
- 约 17页
- 2018-02-09 发布于天津
- 举报
独立于算法的机器学习
第十一章独立于算法的机器学习
11.1 模式识别中的哲学
这里讨论的是一些独立于具体识别算法的一
般性原理,但可以适用于任何一个特定的识
别方法:
1. 没有免费午餐定理;
2. 丑小鸭定理;
3. Occam剃刀原理。
没有免费的午餐定理
(NFL, No Free Lunch Theorem )
不存在一个与具体应用无关的,普遍适用的
“最优分类器”;
学习算法必须要作出一个与问题领域有关的
“假设”,分类器必须与问题域相适应。
丑小鸭定理(Ugly Duckling )
不存在与问题无关的“最优”的特征集合或
属性集合;
也同样不存在与问题无关的模式之间的“相
似性度量”。
Occam剃刀原理
设计者不应该选用比“必要”更加复杂的分类器,
“必要”是由训练数据的拟合情况决定的;
在对训练数据分类效果相同时,“简单的”分类器
往往优于“复杂的”分类器;
根据“没有免费午餐定理”,不能说“简单的”分
类器对“复杂的”分类器具有天生的优越性,但在
现实世界中遇到的各种问题,这种优越性往往是存
在。
11.2 分类设计的重采样技术
分类器设计的重采样技术也被称为“自适应的
权值重置和组合(arcing, adaptive reweighting
and combining );
这类方法的主要思想是利用同一个训练样本集
合构造多个分类器,然后以某种方式将这些分
类器组合成一个分类器;
主要方法包括:bagging算法和boosting算法
bagging算法
1. 从大小为n 的原始数据集D 中独立随机地抽取n’
个数据(n’n),形成一个自助数据集;
2. 重复上述过程,产生出多个独立的自助数据集;
3. 利用每个自助数据集训练出一个“分量分类
器”;
4. 最终的分类结果由这些“分量分类器”各自的
判别结果投票决定。
boosting算法
boosting算法同样是利用训练样本集合构造多
个分量分类器,它只要求这个分量分类器是一
个弱分类器—准确率比平均性能好即可。
2类问题,3个分量分类器的训练算法:
1. 在数量为n 的原始样本集D 中随机选取n 个样本构成
1
D ,利用D 训练出一个分类器C ;
1 1 1
2. 在样本集D-D 中选择被C 正确分类和错误分类的样
1 1
本各一半组成样本集D ,用D 训练出一个分类器C ;
2 2 2
3. 将样本集D-D -D 中所有C 和C 分类结果不同的样
1 2 1 2
本组成样本集D ,训练出一个分类器C ;
3 3
boosting 的分类算法
对新的样本x进行分类,如果C 和C 判别结果相同,则
1 2
将x判别为此类别,否则以C 的结果作为x 的类别;
3
原始样本集
器 类 分 量 分
器 类 分 合 组
AdaBoost方法
AdaBoost(adaptive boosting)是boosting方法的一
您可能关注的文档
最近下载
- 常州大学《大学英语一》2024-----2025学年期末试卷(A卷).pdf VIP
- 艾米克变频器AMK3100中文说明书使用手册.pdf
- 必背古诗词75首(可打印) .pdf VIP
- 某知名汽车维修企业员工手册范本.docx VIP
- 2025年二建水利b证考试真题及答案.docx
- 安全驾驶教育培训课件.ppt VIP
- 汽车维修车间员工职责手册.docx VIP
- 黑龙江省哈尔滨市第三中学校2025-2026学年高二上学期9月月考物理试卷.docx VIP
- 初中语文名著导读--《骆驼祥子》知识点总结归纳.docx VIP
- 实施指南(2025)《DAT 22-2015 归档文件整理规则》.pptx VIP
原创力文档

文档评论(0)