半监督学习概论.ppt

下载文档 降价啦

53
0
约3.71千字
约 20页
2017-11-11 发布于湖北
举报
版权申诉
保障服务

半监督学习概论.ppt

1、本文档共20页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

半监督学习概论

报告人：*** 引言传统机器学习分两类：监督学习、无监督学习监督学习仅仅利用已标签样本进行学习，因此对标记样本的数量要求较多；无监督学习仅仅是对未标记样本学习，不能保证精度。只使用少量有标记样本，训练出来的学习系统往往难具有很好的强泛化能力；另外，仅使用少量“昂贵的”标记样本而不利用“廉价的”未标记样本对数据资源是一种浪费。因此如何有效的同时利用两种样本进行学习被研究者关注。半监督学习的提出基于上述机器学习所面临的问题，二十世纪九十年代，半监督学习( Semi-supervised Lear ning)被提出。半监督学习研究主要关注当训练数据的部分信息缺失(包括数据的类别标签缺失、数据的部分特征维缺失、噪声等) 的情况下,如何获得具有良好性能和泛化能力的学习机器，即利用大量的未标记样本来辅助标记样本来建立一个很好的学习器。应用领域：网页检索和文本分类、基于生物特征的身份识别、医学数据处理、数字图像处理、视频标签等领域。半监督学习与传统监督学习分类效果比较基本思想半监督学习的基本思想是利用数据分布上的模型假设, 建立学习器对未标签样本进行标签。形式化描述为：给定一个来自某未知分布的样本集S=L∪U, 其中L 是已标签样本集L={(x1,y1),(x2,y2), … ,(x |L|,y|L|)}, U是一个未标签样本集U={x’1,x’2,…,x’|U|},希望得到函数f:X → Y可以准确地对样本x预测其标签y，这个函数可能是参数的，如最大似然法；可能是非参数的，如最邻近法、神经网络法、支持向量机法等；也可能是非数值的，如决策树分类。其中, x与x’ 均为d 维向量, yi∈Y 为样本x i 的标签, |L| 和|U| 分别为L 和U 的大小, 即所包含的样本数。半监督学习就是在样本集S 上寻找最优的学习器。如何综合利用已标签样例和未标签样例,是半监督学习需要解决的问题。两个基本假设半监督学习问题从样本的角度而言是利用少量标注样本和大量未标注样本进行机器学习，从概率学习角度可理解为研究如何利用训练样本的输入边缘概率 P( x )和条件输出概率P ( y | x )的联系设计具有良好性能的分类器。这种联系的存在是建立在某些假设的基础上的，即聚类假设(cluster assumption)和流形假设(maniford assumption)。聚类假设：是指处在相同聚类中的样本示例有较大的可能拥有相同的标记。根据该假设，决策边界就应该尽量通过数据较为稀疏的地方，从而避免把稠密的聚类中的数据点分到决策边界两侧。在这一假设下,大量未标记样本的作用就是帮助探明样本空间中数据分布的稠密和稀疏区域,从而指导学习算法对利用有标记样本学习到的决策边界进行调整,使其尽量通过数据分布的稀疏区域。流形假设：是指处于一个很小的局部区域内的示例具有相似的性质，因此，其标记也应该相似。这一假设反映了决策函数的局部平滑性。和聚类假设着眼整体特性不同，流形假设主要考虑模型的局部特性。在该假设下,大量未标记示例的作用就是让数据空间变得更加稠密,从而有助于更加准确地刻画局部区域的特性,使得决策函数能够更好地进行数据拟合。半监督学习的常用算法半监督学习算法按照不同的模型假设,可以大致将现有的半监督学习算法分为五类：自学习(Self-training) 基于生成模型的方法(EM with generative mixture models) 协同训练(Co-training) 直推式支持向量机 (Transductive Support Vector Machines) 基于图的方法(Graph-based methods) 自学习自学习要表达的核心思想是在分类器递归拟合的时候，每次递归仅将满足设定的置信度阈值的即置信度高的样本纳入到已标记样本集中，参与递归拟合。算法流程： Step1:用已标记的样本来训练得到一个初始分类器； Step2:用初始分类器对未标记样本进行分类，将标记置信度高的未标记样本进行标记； Step3:对所有样本进行重新训练，直到将所有未标记样本都标记为止。缺点：自训练算法是一个包装算法，没有实用性，一般来说很难分析。协同训练算法此类算法隐含地利用了聚类假设或流形假设,它们使用两个或多个学习器,在学习过程中,这些学习器挑选若干个置信度高的未标记示例进行相互标记,从而使得模型得以更新。最早提出Co-training的是A. Blum和T. Mitchell。之后分别经过两次改进，南大周志华贡献很大。该算法的一个显著特点是使用了三个分类器，不仅可以简便地处理标