半监督学习综述.pptVIP

下载本文档

9
0
约5.35千字
约 23页
2024-04-28 发布于四川
举报
版权申诉

半监督学习综述.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

********半监督学习综述

(Semi-supervised?Learning)

机器学习领域中，传统的学习方法有两种：监督学习和无监督学习。半监督学习（Semi-supervisedLearning）是模式识别和机器学习领域研究的重点问题，是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。模式识别

模式识别（英语：PatternRecognition），就是通过计算机用数学技术方法来研究模式的自动处理和判读。我们把环境与客体统称为“模式”。随着计算机技术的发展，人类有可能研究复杂的信息处理过程。信息处理过程的一个重要形式是生命体对环境及客体的识别。对人类来说，特别重要的是对光学信息（通过视觉器官来获得）和声学信息（通过听觉器官来获得）的识别。这是模式识别的两个重要方面。市场上可见到的代表性产品有光学字符识别、语音识别系统模式识别是指对表征事物或现象的各种形式的(数值的、文字的和逻辑关系的)信息进行处理和分析，以对事物或现象进行描述、辨认、分类和解释的过程，是信息科学和人工智能的重要组成部分。**机器学习：机器模拟人的学习机器学习(MachineLearning,ML)是一门多领域交叉学科，涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为，以获取新的知识或技能，重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心，是使计算机具有智能的根本途径，其应用遍及人工智能的各个领域，它主要使用归纳、综合而不是演绎。*监督学习（Supervisedlearning）训练集：标注非监督学习（Unsupervisedlearning）训练集：无需标注（同一分布）半监督学习（Semi-supervisedlearning）训练集：标注+未标注(同一分布)机器学习：按学习方式分类有监督的学习：学习器通过对大量有标记的训练例进行学习，从而建立模型用于预测未见示例的标记(label)。很难获得大量的标记样本。无监督的学习：无标记样本，仅根据测试样本的在特征空间分布情况来进行标记，准确性差。*半监督学习的过程：有少量标记样本，学习机以从标记样本获得的知识为基础，结合测试样本的分布情况逐步修正已有知识，并判断测试样本的类别。人类是否进行半监督学习？“熟读唐诗三百首，不会写诗也会吟”相当于往大脑中装入大量的未标注语料国外研究表明：如果婴儿以前经常听到某个单词，那么当他再学习该词的时候就会很快人类是否进行半监督学习？

简单的推理（RajatRaina2007）：人大脑中有1014个神经元连接人的寿命109秒每秒需要学105个参数“被指导学习”的时间很有限结论：人类大部分的思维都是非监督的，监督学习起加速作用-人的思维方式=半监督学习？？**传统机器学习算法需要利用大量有标记的样本进行学习。随着信息技术的飞速发展，收集大量未标记的（unlabeled）样本已相当容易，而获取大量有标记的示例则相对较为困难，因为获得这些标记可能需要耗费大量的人力物力。如何利用大量的未标记样本来改善学习性能成为当前机器学习研究中备受关注的问题。优点：半监督学习（Semi-supervised?Learning）能够充分利用大量的未标记样本来改善学习机的性能，是目前利用未标记样本进行学习的主流技术。半监督学习背景*半监督学习的发展历程未标记示例的价值实际上早在上世纪80年代末就已经被一些研究者意识到了。R.P.Lippmann.Patternclassificationusingneuralnetworks.IEEECommunications,1989,27(11):47-64.一般认为，半监督学习的研究始于B.Shahshahani和D.Landgrebe的工作，最早是在这篇文章当中提到的。B.Shahshahani,D.Landgrebe.Theeffectofunlabeledsamplesinreducingthesmallsamplesizeproblemandmitigatingthehughesphenomenon.IEEETransactionsonGeoscienceandRemoteSensing,1994,32(5):1087-1095.D.J.M