独立于算法的机器学习.PDFVIP

下载本文档

5
0
约4.36千字
约 17页
2018-02-09 发布于天津
举报

独立于算法的机器学习.PDF

独立于算法的机器学习

第十一章独立于算法的机器学习 11.1 模式识别中的哲学  这里讨论的是一些独立于具体识别算法的一般性原理，但可以适用于任何一个特定的识别方法： 1. 没有免费午餐定理； 2. 丑小鸭定理； 3. Occam剃刀原理。没有免费的午餐定理（NFL, No Free Lunch Theorem ） 不存在一个与具体应用无关的，普遍适用的 “最优分类器”； 学习算法必须要作出一个与问题领域有关的 “假设”，分类器必须与问题域相适应。丑小鸭定理（Ugly Duckling ） 不存在与问题无关的“最优”的特征集合或属性集合； 也同样不存在与问题无关的模式之间的“相似性度量”。 Occam剃刀原理  设计者不应该选用比“必要”更加复杂的分类器， “必要”是由训练数据的拟合情况决定的；  在对训练数据分类效果相同时，“简单的”分类器往往优于“复杂的”分类器；  根据“没有免费午餐定理”，不能说“简单的”分类器对“复杂的”分类器具有天生的优越性，但在现实世界中遇到的各种问题，这种优越性往往是存在。 11.2 分类设计的重采样技术  分类器设计的重采样技术也被称为“自适应的权值重置和组合（arcing, adaptive reweighting and combining ）；  这类方法的主要思想是利用同一个训练样本集合构造多个分类器，然后以某种方式将这些分类器组合成一个分类器；  主要方法包括：bagging算法和boosting算法 bagging算法 1. 从大小为n 的原始数据集D 中独立随机地抽取n’ 个数据(n’n)，形成一个自助数据集； 2. 重复上述过程，产生出多个独立的自助数据集； 3. 利用每个自助数据集训练出一个“分量分类器”； 4. 最终的分类结果由这些“分量分类器”各自的判别结果投票决定。 boosting算法  boosting算法同样是利用训练样本集合构造多个分量分类器，它只要求这个分量分类器是一个弱分类器—准确率比平均性能好即可。  2类问题，3个分量分类器的训练算法： 1. 在数量为n 的原始样本集D 中随机选取n 个样本构成 1 D ，利用D 训练出一个分类器C ； 1 1 1 2. 在样本集D-D 中选择被C 正确分类和错误分类的样 1 1 本各一半组成样本集D ，用D 训练出一个分类器C ； 2 2 2 3. 将样本集D-D -D 中所有C 和C 分类结果不同的样 1 2 1 2 本组成样本集D ，训练出一个分类器C ； 3 3 boosting 的分类算法  对新的样本x进行分类，如果C 和C 判别结果相同，则 1 2 将x判别为此类别，否则以C 的结果作为x 的类别； 3 原始样本集器类分量分器类分合组 AdaBoost方法  AdaBoost(adaptive boosting)是boosting方法的一

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

独立于算法的机器学习.PDFVIP