半监督学习研究综述.docVIP

下载本文档

7
0
约8.76千字
约 12页
2018-03-16 发布于北京
举报
版权申诉

半监督学习研究综述.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

半监督学习研究综述　　摘要：半监督学习问题，从一开始就受到了人工智能界的高度重视，已经成为领域中的研究热点之一。该文综述了半监督学习问题的基本思想、研究现状，简述目前的研究困难。　　关键词：半监督学习；标签；分类　　中图分类号：TP18 文献标识码：A文章编号：1009-3044(2011)16-3887-03 　　Semi-supervised Learning Study Summary 　　CHEN Wu-jin 　　Abstract: Semi-supervised learning problems, From the outset by the artificial intelligence community have attached great importance to it, Has become a hot topic in the research field. This paper reviews the problem of semi-supervised learning the basic idea of the status quo, Summarized the current study difficult. 　　Key words: semi-supervised learning; labeled; classification 　　人工智能主要研究的是如何使用计算机来模拟人类的学习活动，而从样本数据中学习是机器学习研究的主要问题之一[1]。机器学习在生活中随处可见，随着社会经济的飞速发展，计算机技术的日趋成熟，人类采集数据、存储数据的能力得到了非常大的提高，从科学界到日常生活的每一个领域都存储了海量的数据，而对这些数据如何进行分析和处理，以及如何挖掘数据中的可用数据，已经成为大部分领域的共同追求。另外，在许多领域，往往想要获得样本数据的类别的标签非常困难，有的需要投入大量的时间、精力、资金等等，有的还需要非常雄厚的专业基础知识，缺乏类别标签，是目前处理数据的一大困难。对于传统的机器学习方法来说，它们大多只考虑有标签的样本数据，要么干脆只考虑无标签的样本数据；然而在许多现实问题中，一般这两种数据都存在；有时标签的样本数据太少，而没办法用于监督学习，但是仅仅使用无标签的样本数据进行无监督学习又会使得标签的样本数据于无用武之地的境界。因此，怎样更好地利用这两种数据成为一个很受关注的难题。为了解决这一困难，人们提出了半监督学习方法，该方法能够同时利用好这两种样本，达到更好的分类结果。　　1 半监督学习的定义及其研究现状　　在机器学习领域中，传统的学习方法有两种：监督学习和无监督学习。监督学习中，采用的训练集为XL={(x1,y1),(x2,y2),…,(xl,yl)}；在无监督学习中，采用的是独立同分布的样本构成的集合XU={x1,x2,…,xn}；对于分类问题，监督学习的目的是寻找从X到Y的对应关系。通常情况下还要有一个测试样本集用来测试这样一种对应关系的好坏。　　半监督学习方法在机器学习领域是比较新兴的方法，是监督学习与无监督学习相结合的一种学习方法。也就是同时采用标签的样本数据和未标签的样本数据的机器学习方法；在半监督学习方法中，采用的标签集为XL={(x1,y1),(x2,y2),…,(xl,yl)}，样本和所属类型成对出现。未标签样本集为XU={xl+1,xl+2,…,xn}，且U=N-L,LU。在标签的样本数据相对较少，而未标签的样本数据相对较多的情况下，半监督学习大多情况下都可以获得比监督学习和无监督学习更好的学习效果，这使得它得到更多的重视。半监督学习主要有三类[1]：半监督分类（Semi-supervised classification）、半监督聚类（Semi-supervised clustering）和半监督函数拟合（Semi-supervised regression）。本文主要围绕半监督分类方法。　　在半监督学习方法中，一般需要一些假设的支撑。目前，在半监督学习中有三个比较常用的基本假设[1]：聚类假设、流形假设和局部与全局一致性假设。　　聚类假设是指样本数据间的距离相互比较近时，则他们拥有相同的类别。根据该假设，分类边界就必须尽可能地通过数据较为稀疏的地方，以能够避免把密集的样本数据点分到分类边界的两侧。在这一假设的前提下，学习算法就可以利用大量未标记的样本数据来分析样本空间中样本数据分布情况，从而指导学习算法对分类边界进行调整，使其尽量通过样本数据布局比较稀疏的区域[2]。例如，Joachims[3]提出的转导支持向量机算法，在训练过程中，算法不断修改分类超平面并交换超平面两侧某些未标记的样本数据的标记，使得分类边