基于K近邻统计非线性AdaBoost算法.docVIP

下载本文档

17
0
约1.07万字
约 23页
2018-08-28 发布于福建
举报
版权申诉

基于K近邻统计非线性AdaBoost算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于K近邻统计非线性AdaBoost算法

基于K近邻统计非线性AdaBoost算法　　摘要：　　AdaBoost是数据挖掘领域最常见的提升算法之一。对传统AdaBoost将各个基分类器线性相加所存在的不足进行分析，并针对AdaBoost各个弱分类器的加权方式提出新的改进，将传统的线性相加改为非线性组合，把从学习过程得到的固定不变的权重系数改为由预测阶段的具体实例决定的动态参数，该参数基于待测实例K近邻的分类结果统计，从而使各个基分类器的权重更贴近当前待测实例的实际可靠度。实验结果表明，与传统AdaBoost相比，提出的非线性改进算法对不同数据集均有不同程度提升，提升最高的达到了7个百分点。由此证明，提出的改进是一种更加准确的分类算法，对绝大多数数据集均能得到更高的分类准确率。　　关键词：　　AdaBoost；数据挖掘；分类器；非线性；K近邻　　0 引言　　数据分类[1]是数据挖掘的一个重要研究方向，是一种重要的数据分析形式，其一般分为学习和分类两个阶段。学习阶段分类算法通过已知的训练样本集构造分类器，分类阶段使用前一阶段得到的分类器预测给定数据的类别。在学习阶段用来构造分类器的算法有很多，如决策树归纳、朴素贝叶斯等，在这些分类算法日趋成熟的同时，又出现了诸如装袋、提升和随机森林等提高分类准确率的技术。AdaBoost作为一种最常见的提升算法，受到了研究者的广泛关注与研究，并得到了各种各样的改进。文献[2]针对数据不平衡问题提出一种基于正负类损失函数的AdaBoost改进算法，用训练好的基分类器对每次训练子集的补集进行损失估计，根据该损失更新分类错误的样本权重，从而有效避免数据不平衡的问题；文献[3]针对AdaBoost存在的训练消耗大的问题提出一种基于特征裁剪的FPAdaBoost（Feature Pruning AdaBoost）算法，通过裁剪掉一部分分类误差较大的特征来提高算法的训练速度；文献[4]通过设定样本权重阈值来防止样本更新时某些错误样本权重过大，一定程度上避免了过度拟合的问题。　　目前研究者主要从数据集的权重更新和训练速度方面进行改进，对AdaBoost组合分类器的加权方式研究较少。本文首先对传统的AdaBoost算法进行简单的介绍，并阐述了AdaBoost的算法流程，然后针对AdaBoost组合分类器加权方式存在的不足进行分析，并提出自己的改进，将从学习过程得到的固定不变的权重系数改为由预测阶段的具体实例决定的动态参数，将传统的线性相加改为非线性组合，从而使各个基分类器的投票对最终结果的作用更加合理，进而提升组合分类器的预测准确率。由于该方法与文献[5]提出的改进算法WBTI（Weighting Based on Test Instances）具有一定相似度，随后对WBTI与本文的非线性AdaBoost分别进行实验验证，通过对比证明了本文的方法具有更高的准确率。最后，为更进一步地提高AdaBoost准确率提出一种可能的研究方向。　　1 AdaBoost算法概述　　对于分类问题，通过给定的样本数据要得到一个准确率一般的分类器（弱分类器）比得到一个精确的分类器容易得多，AdaBoost的主要思想就是反复利用最普通的学习方法（如决策树、朴素贝叶斯等）得到一系列的弱分类器，然后让这些弱分类器进行加权投票。AdaBoost算法过程主要有两大特点：一是在迭代训练过程中加大了上一轮训练中分类错误的样本权重，使得下一轮训练更加关注这些分类错误的样本；另一个特点是根据每个分类器在训练过程中的分类误差率计算出一个权重赋给对应的分类器，这样，越准确的分类器在最终的表决中起的作用越大[6]。　　1.1 AdaBoost算法基本原理　　AdaBoost是一种迭代算法，其核心思想是针对同一个训练集训练不同的弱分类器，然后把这些弱分类器组合起来，构成一个更强的最终分类器。其每一个不同的弱分类器是通过改变训练样本集中数据分布来得到的，它根据每次训练集中每个样本的分类是否正确，以及上次的总体分类的准确率，来确定下一轮中每个样本的权值。将修改过权值的新数据集送给下层分类器进行训练，最后将每次训练得到的不同分类器组合在一起，作为最后的决策分类器。　　1.2 AdaBoost算法流程　　1）准备训练样本数据集，并初始化训练数据的权重分布。这里的权重决定了对应的样本在下一轮训练中受到的重视程度。刚开始一般采用均匀分布：　　D1=（w1，1，w1，2，…，w1，N）（1）　　其中：w1，i=1/N（i=1，2，…，N）。　　设M为总迭代次数，m为当前迭代轮数。　　2）使用带权重的样本集进行学习（任选一种分类算法），得到一个弱分类器Gm（x）。这里的弱分类器只要优于胡乱猜测就是合格的分类器。　　3）计算弱分类器在训练数据集