一种改进的 TRI-TRAINING 算法.docVIP

下载本文档

72
0
约1.09万字
约 6页
2018-08-07 发布于贵州
举报
版权申诉

一种改进的 TRI-TRAINING 算法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

一种改进的 TRI-TRAINING 算法

一种改进的 Tri-training 算法胡汇涓，王雪松（中国矿业大学信息与电气工程学院，江苏徐州 221008）摘要：针对传统 Tri-training 算法中使用三个相同分类器的分类精度低，泛化能力不强的局限性，本文采用三个不同的分类器，利用不同分类器之间合作算法和投票选举的方式对未标记数据进行标记，大大提高了算法的泛化能力；并引入自适应数据剪辑策略，消除训练数据中的噪声。通过实验说明改进后的算法相对传统 Tri-training 算法在分类精度上有不同程度的改进。关键词：支持向量机；K 近邻；朴素贝叶斯； Tri-training 算法；数据剪辑；自适应策略中图分类号：TP13 An improved Tri-training algorithm HU Huijuan, Wang Xuesong (School of Information and Electrical Engineering, China University of Mining and Technology, Jiangsu Xuzhou 221008, China) Abstract: Tri-training algorithm was developed from co-training algorithm. In order to solve the limitation of the traditional Tri-training algorithm such as low Classification Accuracy and weak Generalization ability, an improved algorithm is proposed. It greatly improved the generalization by different classifiers cooperation and the use of polling on unlabeled training data .Meanwhile , a method of data editing and adaptive is introduced to eliminate the noise of training data.This paper uses many UCI data sets to test the improved algorithm based on three different classifiers. Compared with the traditional algorithm, it uses three same KNN classifiers, Naive Bayes classifier and SVM classifier . the experiment shows that the improved algorithm advanced greatly in the classification accuracy. Key words: Support Vector Machine;K-Nearest Neighbor algorithm;Naive Bayesian;Tri-training;Data editing;Adaptive strategy 0 引言半监督学习作为一种近年来新提出的学习策略，弥补了监督学习与无监督学习的不足，同时利用标记数据和未标记数据,已经成为机器学习领域的研究热点，吸引着越来越多的学者对其进行深入地研究[1]。协同训练算法是基本半监督学习算法其中之一，Blum 和 Mithchell 在 1998 年提出协同训练算法后，Goldman 等提出了一种改进算法，要求分类器所用的有监督算法能够将实例空间划分为等价类集合，导致算法时间复杂度较高。Zhou 等于 2005 年提出了一种既不要求充分冗余视图，也不要求使用不同类型分类器的 Tri-training 算法[2]。 Tri-training 算法。它不仅可以简便地处理标记置信度估计问题以及对未见示例的预测问题，还利用集成学习来提高泛化能力。针对 Zhou 提出的分类算法中的三个分类器采用同一种监督分类学习方法作为基分类器算法结果的局限性，本文引入自适应数据剪辑策略并采用三种不同的分类算法进行学习。随机选取 UCI 数据集上的数据进行仿真实验，对比可知改进后的方法比原来的算法分类结果更精确，泛化能力更强。作者简介：胡汇涓（1986-），女，研究生，控制工程. E-mail: huhuijuan1012@ 1 Tri-training 算法训练策