浅谈半监督学习意义价值，优缺点及进一步的研究.docVIP

下载本文档

2277
0
约8.18千字
约 15页
2021-01-12 发布于北京
举报
版权申诉

浅谈半监督学习意义价值，优缺点及进一步的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

浅谈半监督学习意义价值，优缺点及进一步的研究摘要：半监督学习利用大量未标记数据结合少量标记数据提升学习性能。本文涉及几种半监督分类方法的评价。文章由三个主要部分组成。首先，介绍半监督学习的定义和基本假设;第二部分为本文的主体部分，介绍了四种半监督学习方法：弱监督学习、生成模型、直推式支持向量机、基于图的方法，结合数据集对其优势和缺陷进行评价;在第三部分中，本文从理论上分析了未标记数据对分类性能提升的作用。关键词：半监督学习分类生成模型直推式支持向量机基于图的方法第一章前言 1.1 研究背景与意义 1.1.1 半监督学习的定义 1.1.2 半监督学习的动机传统的监督学习需要一定规模的标记训练集，然而，实际问题中标签的获取代价很高。相比于难以获得的标记数据，我们更容易获取大量无标记数据。例如，在文本分类问题中，根据内容对文档进行人工标记很费时，但未标注的文档容易获得。半监督学习的动机在于，有效利用大量相对廉价的未标记数据提升学习性能。半监督学习通常需要依赖某些基本假设。常用的假设有以下三种： 1) 平滑假设，即当样本在样本分布密集的区域内距离相近时，它们的标签相同。 2) 低密度分离假设，要求决策边界位于样本分布稀疏的区域。低密度分离假设的等价表述为聚类假设，即位于同一聚类的样本有相同标签。聚类假设也可被视为平滑假设的一个特例，因为通常样本集中的区域组成一个聚类。在聚类假设下，未标记数据指导分类器识别数据密集和稀疏的区域，使决策平面穿过低密度区域。 3) 流形假设，这一假设认为在一个小的局部邻域内，样本有相似的性质，因而有相似的输出，在分类问题中则是有相同的标签。在流形假设下，未标记数据让数据空间变得更加密集，从而准确反映空间的局部特征。流形假设可以看作是从局部角度描述的聚类假设。三种假设本质上是一致的，区别在于关注的角度不同。流形假设可以应用于半监督回归，因此更为普遍。 1.2 研究成果回顾最早在分类问题中使用未标记数据的是自训练方法。自训练在学习过程中反复利用某种监督学习方法，是一种包裹算法。它将标记数据集作为初始训练集，在每一步迭代中通过决策函数将部分未标记数据联同新给定的标签并入训练集，在新的训练集上再次训练分类器。之后提出的是直推式学习的概念，它基于Vapnik原理，即不在解决问题的过程中解决更复杂的问题。直推式学习只预测已有未标记数据的标签，对新的样本不具备预测能力。半监督学习在20世纪70年代取得重要发展。对于高斯混合分布模型或混合多项分布模型，利用EM算法可在由标记和未标记数据集组成的训练集上对模型参数进行最大似然估计。更进一步地，每个分类可以对应多个混合成分。 20世纪90年代，由于自然语言处理和文本分类对利用未标记数据提升分类性能的需求，半监督学习成为热点问题。我们通常认为，半监督学习这一术语在1992年首次出现。目前主要的半监督学习方法有协同训练、生成模型、直推式支持向量机和基于图的方法。 1.3 论文的章节安排在第二章中，我们将介绍两种弱监督学习方法：自训练和协同训练，并在标准数据集上对其分类性能进行简单评测。在第三章中我们将介绍生成模型的原理，并具体介绍了基于混合多项分布的朴素贝叶斯模型，以及如何在标签缺失的情况下用EM算法进行参数估计。同时，我们将其应用在文本分类问题中，在20 Newsgroups数据集上对比了朴素贝叶斯和半监督朴素贝叶斯模型的分类准确度。在第四章中我们将介绍直推式支持向量机的理论，在满足低密度分离假设的数据集和随机选取的数据集上，将其分类准确度与支持向量机进行比较。在第五章中，我们将给出三种基于图的半监督学习方法，在正则化框架下完成其理论推导，并在图像数据集USPS和文本数据集20 Newsgroups的一个子集上观测其分类性能。在第六章中，我们基于PAC框架，对半监督学习进行简单的理论分析。在结论部分，我们对全文内容进行总结，并提及半监督学习在未来的发展方向。第二章弱监督学习自训练和协同训练在分类器的学习过程中，通过自助法利用未标记样本扩大训练集的规模，但依然使用监督式的分类器，因此又称为弱监督学习。本章余下部分将介绍这两种学习方式，给出实验结果和评价。 2.1 自训练 ?自训练是一种简单高效的半监督学习方法。它不需要任何对于输入数据的假设，它所基于的假设是，对于每一次预测，置信度高的样本有更大的可能性获得正确分类。自训练的学习步骤如下：上重新训练分类器，如此迭代，直到所有的无标记数据都获得标记为止。