独立于算法的机器学习.PDFVIP

  • 5
  • 0
  • 约4.36千字
  • 约 17页
  • 2018-02-09 发布于天津
  • 举报
独立于算法的机器学习

第十一章独立于算法的机器学习 11.1 模式识别中的哲学  这里讨论的是一些独立于具体识别算法的一 般性原理,但可以适用于任何一个特定的识 别方法: 1. 没有免费午餐定理; 2. 丑小鸭定理; 3. Occam剃刀原理。 没有免费的午餐定理 (NFL, No Free Lunch Theorem ) 不存在一个与具体应用无关的,普遍适用的 “最优分类器”; 学习算法必须要作出一个与问题领域有关的 “假设”,分类器必须与问题域相适应。 丑小鸭定理(Ugly Duckling ) 不存在与问题无关的“最优”的特征集合或 属性集合; 也同样不存在与问题无关的模式之间的“相 似性度量”。 Occam剃刀原理  设计者不应该选用比“必要”更加复杂的分类器, “必要”是由训练数据的拟合情况决定的;  在对训练数据分类效果相同时,“简单的”分类器 往往优于“复杂的”分类器;  根据“没有免费午餐定理”,不能说“简单的”分 类器对“复杂的”分类器具有天生的优越性,但在 现实世界中遇到的各种问题,这种优越性往往是存 在。 11.2 分类设计的重采样技术  分类器设计的重采样技术也被称为“自适应的 权值重置和组合(arcing, adaptive reweighting and combining );  这类方法的主要思想是利用同一个训练样本集 合构造多个分类器,然后以某种方式将这些分 类器组合成一个分类器;  主要方法包括:bagging算法和boosting算法 bagging算法 1. 从大小为n 的原始数据集D 中独立随机地抽取n’ 个数据(n’n),形成一个自助数据集; 2. 重复上述过程,产生出多个独立的自助数据集; 3. 利用每个自助数据集训练出一个“分量分类 器”; 4. 最终的分类结果由这些“分量分类器”各自的 判别结果投票决定。 boosting算法  boosting算法同样是利用训练样本集合构造多 个分量分类器,它只要求这个分量分类器是一 个弱分类器—准确率比平均性能好即可。  2类问题,3个分量分类器的训练算法: 1. 在数量为n 的原始样本集D 中随机选取n 个样本构成 1 D ,利用D 训练出一个分类器C ; 1 1 1 2. 在样本集D-D 中选择被C 正确分类和错误分类的样 1 1 本各一半组成样本集D ,用D 训练出一个分类器C ; 2 2 2 3. 将样本集D-D -D 中所有C 和C 分类结果不同的样 1 2 1 2 本组成样本集D ,训练出一个分类器C ; 3 3 boosting 的分类算法  对新的样本x进行分类,如果C 和C 判别结果相同,则 1 2 将x判别为此类别,否则以C 的结果作为x 的类别; 3 原始样本集 器 类 分 量 分 器 类 分 合 组 AdaBoost方法  AdaBoost(adaptive boosting)是boosting方法的一

文档评论(0)

1亿VIP精品文档

相关文档