模式识别第11章独立于算法的机器学习汇编.pptxVIP

下载本文档

16
0
约2.63千字
约 19页
2017-04-17 发布于湖北
举报
版权申诉

模式识别第11章独立于算法的机器学习汇编.pptx

1、本文档共19页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

模式识别第11章独立于算法的机器学习汇编

第十一章独立于算法的机器学习 11.1 模式识别中的哲学这里讨论的是一些独立于具体识别算法的一般性原理，但可以适用于任何一个特定的识别方法：没有免费午餐定理；丑小鸭定理； Occam剃刀原理。没有免费的午餐定理（NFL, No Free Lunch Theorem）不存在一个与具体应用无关的，普遍适用的“最优分类器”；学习算法必须要作出一个与问题领域有关的“假设”，分类器必须与问题域相适应。丑小鸭定理（Ugly Duckling）不存在与问题无关的“最优”的特征集合或属性集合；也同样不存在与问题无关的模式之间的“相似性度量”。 Occam剃刀原理设计者不应该选用比“必要”更加复杂的分类器，“必要”是由训练数据的拟合情况决定的；在对训练数据分类效果相同时，“简单的”分类器往往优于“复杂的”分类器；根据“没有免费午餐定理”，不能说“简单的”分类器对“复杂的”分类器具有天生的优越性，但在现实世界中遇到的各种问题，这种优越性往往是存在。 11.2 分类性能评价方法使用什么样本测试分类器的性能？如何划分样本集? 两分法：随机地将样本集D划分为不相交的两个集合Dl和Dt，分别用于学习分类器和测试分类器性能。分类性能评价方法交叉验证：将样本集D随机地划分为互不相交的k个子集：使用k-1个子集的样本训练一个分类器；测试没有参与训练子集的样本；重复k次取平均。留一法（刀切法）：k = n D1 … D2 Dk-1 Dk Dl Dt 分类性能评价方法 Bootstrap方法（自助法）: 从样本集D中有放回地抽取n个样本用于训练；从样本集D中有放回地抽取n个样本用于测试；重复k次取平均。 11.3 分类设计的重采样技术分类器设计的重采样技术也被称为“自适应的权值重置和组合（arcing, adaptive reweighting and combining）；这类方法的主要思想是利用同一个训练样本集合构造多个分类器，然后以某种方式将这些分类器组合成一个分类器；主要方法包括：bagging算法和boosting算法 bagging算法从大小为n的原始数据集D中独立随机地抽取n’个数据(n’n)，形成一个自助数据集；重复上述过程，产生出多个独立的自助数据集；利用每个自助数据集训练出一个“分量分类器”；最终的分类结果由这些“分量分类器”各自的判别结果投票决定。 boosting算法 boosting算法同样是利用训练样本集合构造多个分量分类器，它只要求这个分量分类器是一个弱分类器—准确率比平均性能好即可。 2类问题，3个分量分类器的训练算法：在数量为n的原始样本集D中随机选取n1个样本构成D1，利用D1训练出一个分类器C1；在样本集D-D1中选择被C1正确分类和错误分类的样本各一半组成样本集D2，用D2训练出一个分类器C2；将样本集D-D1-D2中所有C1和C2分类结果不同的样本组成样本集D3，训练出一个分类器C3； boosting的分类算法对新的样本x进行分类，如果C1和C2判别结果相同，则将x判别为此类别，否则以C3的结果作为x的类别；原始样本集分量分类器组合分类器 AdaBoost方法 AdaBoost(adaptive boosting)是boosting方法的一个重要变形，一般所说的boosting方法均是指AdaBoost； AdaBoost方法中，设计者可以不断地增加分量分类器，直到达到足够小的错误率为止；总体分类结果是由各分量分类器加权平均得到，权重由分量分类器的错误率确定。 AdaBoost方法 begin initialize D, kmax, W1(i)?1/n, i=1,…,n； k?0; do k?k+1 训练使用按照Wk(i)采样D的弱分类器Ck； Ek?用Wk(i)采样D的样本集测量Ck的训练误差； until k=kmax； end AdaBoost方法算法中Wk(i)为每一步迭代中对每个样本的加权，Zk是归一化因子，Ck为第k个分量分类器，αk为对Ck的加权；总体的判别函数由各分量分类器的加权平均得到：其中为Ck分类器给出的判别结果。 AdaBoost方法的推广能力 AdaBoost方法实际上是增加了分类器的复杂程度，但实践表明此方法出现“过拟合”的现象极少，这是此方法最吸引人的地方。针对特征的Boosting算法特征选择：就是从一组数量为n的特征中选择出数量为m的最优特征；最优特征组合的评价标准；选择出最优特征组合的算法； Boosting可以作为特征选择的方法。 AdaBoost特征选择算法 Given