半监督学习方法的评价.docxVIP

下载本文档

63
0
约1.61万字
约 32页
2020-09-18 发布于江苏
举报
版权申诉

半监督学习方法的评价.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

经典专科、本科、硕博、研究生、期刊毕业论文仅供参考精心整理仅供参考勿用作商业用途摘要半监督学习利用大量未标记数据结合少量标记数据提升学习性能。本文涉及几种半监督分类方法的评价。文章由三个主要部分组成。首先，介绍半监督学习的定义和基本假设；第二部分为本文的主体部分，介绍了四种半监督学习方法：弱监督学习、生成模型、直推式支持向量机、基于图的方法，结合数据集对其优势和缺陷进行评价；在第三部分中，本文从理论上分析了未标记数据对分类性能提升的作用。关键词：半监督学习分类生成模型直推式支持向量机基于图的方法 Abstract Semi-supervised learning uses a large amount of unlabeled data, together with the labeled data to build a better classifier. This paper is concerned with the evaluation of several semi-supervised methods. There are three major ingredients. The first is an introduction on the definition and some popular assumptions of semi-supervised learning. The second, which is the main ingredient of this paper, studies the four main semi-supervised methods, including weakly supervised methods, generative model, transductive support vector machine and graph-based methods. Some experiments on datasets of these methods have been carried out, to characterize their advantages and limitations. The third ingredient present the theoretical analysis of how unlabeled data can be used successfully for classification. Key words: semi-supervised leaning, classification, generative model, transductive support vector machine, graph-based method 第一章前言 1.1 研究背景与意义 1.1.1 半监督学习的定义为定义半监督学习，首先我们需要明确监督学习和无监督学习的含义。首先给出一些基本的定义 REF _Ref513594746 \r [1] REF _Ref513594746 \r \h 。样例x通常指一个D维向量x={x1,x2,?,xd}，它的每一维称为一个特征，D即为特征向量的维数。训练集xi,yii=1n则是由n个样本点组成的集合，它是学习过程的输入值。标签y与样监督学习是指，通过给定的有标记训练集xi,yii=1l，训练一个从输入X到输出Y的映射f。监督学习根据标签y的类型可分为两类。如果y是离散值，则为分类问题，此时f是一个分类器；否则为回归问题，f则为回归函数。无监督学习的输入是一个未标记数据集x 半监督学习是一种介于监督学习和无监督学习之间的学习方法 REF _Ref513594846 \r [2]。对于半监督分类问题，它综合利用标记数据集xi,yii=1l和未标记数据集xi 根据学习目的，半监督学习可分为两种类型：纯半监督学习和直推式半监督学习。前者的目标是利用给定训练集xi,yii=1l,xii=l+1u 1.1.2 半监督学习的动机传统的监督学习需要一定规模的标记训练集，然而，实际问题中标签的获取代价很高。相比于难以获得的标记数据，我们更容易获取大量无标记数据。例如，在文本分类问题中，根据内容对文档进行人工标记很费时，但未标注的文档容易获得。半监督学习的动机在于，有效利用大量相对廉价的未标记数据提升学习性能。半监督学习通常需要依赖某些基本假设。常用的假设有以下三种：平滑假设 REF _Ref513594746 \r [1]，即当样本x1,x2 低密度分离假设 REF _Ref513594746 \r [1]，要求决策边界位于样