融合协同训练和两层主动学习策略SVM分类方法.docVIP

下载本文档

4
0
约2.98千字
约 7页
2018-07-03 发布于福建
举报
版权申诉

融合协同训练和两层主动学习策略SVM分类方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

融合协同训练和两层主动学习策略SVM分类方法

融合协同训练和两层主动学习策略SVM分类方法　　摘要针对当前主动学习策略直接用于SVM分类器时存在的泛化能力不强的问题，结合协同训练思想，提出了两层主动学习策略（TLAC），并用于SVM深层挖掘未标记样本数据的分布知识.实验表明，该TLAC策略能够合理的指定TSVM算法中的正样本数，在典型指标测试中都表现出了一定的优越性. 　　关键词协同训练；主动学习；贝叶斯网络；支持向量机　　中图分类号 TP315 文献标识码 A 文章编号-1000-2537（2014）01-0090-05 　　在传统的学习机技术中，学习器的学习主要针对带有标记的样本数据，而且通过模拟建立的模型主要用于对有标记的样本数据集进行数据的预测和推断，并在分类问题中标记出样本数据的类别.由于目前数据收集技术的快速发展和逐步提高，在收集数据时对未标记样本数据的收集十分容易，而在获取大量有标记的样本数据时比较困难，这是因为在获取有标记样本数据时需要耗费大量的人力、财力、物力等资源.而利用少量有标记样本数据训练出的学习器往往泛化能力并不强.那么如何在有标记样本数据较少的情况下，通过利用大量的不带标记样本数据来改善学习器的性能已经成为目前机器学习研究的热点之一. 　　1研究现状　　文献[1]首次将主动学习策略用于支持向量机（Support Vector Machine，SVM）算法中，文中利用主动学习策略选取SVM分类器最有可能预测的样本，根据这些样本尽可能地简约SVM分类器超平面所在的版本空间，从而得到最有可能近似正确划分所有样本的超平面.实验分析也指出对直推支持向量机（Transducive Support Vector Machine， TSVM）采用文中所提的主动查询策略在某些情况下不如随机查询效果好.文献[2]利用主动学习策略并结合高斯随机场和谐波函数对学习器进行半监督形式的学习，该策略首先通过样本数据训练建立一个图，图中建立的每个节点都代表一个（有标记或未标记）样本数据，然后通过求解对应的函数最优值，进一步获取未标记样本数据的最优标记.该文在最后的实验分析中指出如果利用结构风险最小化准则去主动查询训练SVM，所得到的精度甚至不如直接在SVM上随机查询所得的训练精度.文献[3]提出的基于SVM的主动学习方法，采用版本空间和边缘方法选取样本的标记，其主要思想是反复选择离分类超平面最近的未标记样本标注直至达到设定阈值停止.文献[4]则对文中提出的方法进行改进，提出了一种基于不确定选样和确定选择相结合的主动学习方法，并应用于浅层语义分析的任务. 　　基于上述文献分析，目前基于SVM的学习存在下面两个问题：（1）对于错误样本标记敏感，如果初始的SVM分类超平面位置不好，需要很长时间才能移动到合理的位置，甚至受错误标记影响较大时，分类超平面会一直停留在不合理的位置：（2）基于SVM的主动学习在查询的中后期，查询的点大部分位于SVM分类超平面附近，使得算法的泛化能力不强. 　　2两层主动学习策略　　2.1直推支持向量机设计　　因为数据集中的标记样本是在数据集中随机选取的，如果初始分类超平面处在不合理的位置，利用TSVM训练得到的准确率也可能不太好.从图1可以看出，在处理1类和3类时，我们的算法准确率更高，这是因为TSVM在初始估计的正样本数和真实值之间相差较大.但是1类和3类的召回率有所下降，这是因为这两类维数较高，由于高维特征空间映射时可能导致样本相对位置改变，从而影响分类器的决策.4类的样本分布不均匀导致了精度有所下降. 　　4结束语　　针对当前TSVM算法存在的问题和主动学习策略用于SVM分类器的缺陷，本文提出了一种基于贝叶斯的主动学习选取样本策略用于TSVM算法中，在一定程度上解决了TSVM算法指定正样本的问题，同时也使主动学习策略能在全局分布上进行查询样本，进而使SVM分类器的超平面移动到合理的位置.由于贝叶斯分类器也有其固有的假设性缺陷，本文的后续工作是进一步改进主动学习策略，挖掘未标记数据的潜在分布知识，并用真实数据集加以测试. 　　参考文献：　　[1]袁勋，吴秀清，洪日昌. 基于主动学习SVM分类器的视频分类[J]. 中国科学技术大学学报， 2009，39（5）：473478. 　　[2]赵英刚，陈奇，何钦铭.一种基于支持向量机的直推式学习算法[J].江南大学学报：自然科学版， 2006，26（8）：441444. 　　[3]陈耀东，王挺，陈火旺.半监督学习和主动学习相结合的浅层次语义分析[J].中文信息学报， 2008，22（2）：7075. 　　[3]CHEN Y D， WANG T， CHEN H W. Combining semisupervised learning and active learning for shallow