EM算法及其在半监督学习中的运用研讨.pptVIP

下载本文档

1
0
约 32页
2017-05-08 发布于湖北
举报
版权申诉

EM算法及其在半监督学习中的运用研讨.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

EM算法及其在半监督学习中的运用研讨

特点：不同的图基方法大体上都差不多，只不过是损失函数和正规则器的选择不同而已，其关键是要构建一个好的图。优点：物理原理能够很好的解释。缺点：目前对于图的构建研究还不是很深入。 2.1 图基方法背景：TSVM是为了改进SVM在文本分类中本已出色的表现而做的更一步改进.使用SVM 进行文本分类一个问题是难于建造出那么多的标记文档，要么是可用的训练数据本身就少，或者是用人工方法把无标记的文档分类为有标记的文档所花费的功夫无法承受。这样就引出了TSVM。定义：是标准SVM在半监督学习当中的拓展，是通过加入约束项使得未标记数据落在Margin之外，即使得分类的超平面避开数据密度高的区域。这里的未标记样本的特点就是使得决策面避开样本的密集区。优点：考虑无标签样本对分类器的影响，并且结合SVM算法实现的一种高效的分类算法。适用：能够用SVM的地方，自然想到用转导支持向量机能够获得更好的效果缺点：时间复杂度比较高，需要预先设置正负比例等的不足。 3 转导支持向量机（TSVM）返回半监督学习的不足通过半监督学习利用未标记示例后，有时不仅不能提高泛化能力，反而会使得性能下降。在模型假设不符合真实情况或者未标记示例的分布与有标记示例的分布有较大差异时，进行半监督学习有可能导致性能下降。另一方面，随着训练不断进行，自动标记的示例中的噪音会不断积累，其负作用会越来越大。谢谢！ * * * * * * * * * * * * * * 半监督学习(Semi-supervised?Learning ) 有监督的学习：学习器通过对大量有标记的训练例进行学习，从而建立模型用于预测未见示例的标记(label)。很难获得大量的标记样本。无监督的学习：无训练样本，仅根据测试样本的在特征空间分布情况来进行标记，准确性差。半监督的学习：有少量训练样本，学习机以从训练样本获得的知识为基础，结合测试样本的分布情况逐步修正已有知识，并判断测试样本的类别。学习分类半监督学习的过程传统的训练学习算法需要利用大量有标记的样本进行学习。随着信息技术的飞速发展，收集大量未标记的（unlabeled）样本已相当容易，而获取大量有标记的示例则相对较为困难，因为获得这些标记可能需要耗费大量的人力物力。如何利用大量的未标记样本来改善学习性能成为当前模式识别研究中备受关注的问题。优点：半监督学习（Semi-supervised?Learning）能够充分利用大量的未标记样本来改善分类器的性能，是目前利用未标记样本进行学习的主流技术。半监督学习背景在进行Web网页推荐时，需要用户标记出哪些网页是他感兴趣的，很少会有用户愿意花大量的时间来提供标记，因此有标记的网页示例比较少，但Web上存在着无数的网页，它们都可作为未标记示例来使用。这类问题直接来自于实际应用：例如，大量医学影像，医生把每张片子上的每个病例都标出来再进行学习，是不可能的，能否只标一部分，并且还能利用未标的部分？半监督学习的应用领域半监督学习的主要方法生成模型（Generative Model）图基方法(graph-based methods) 转导支持向量机（Transductive Support Vector Machines ）生成模型（Generative Model) 概述：样本数据分为标记样本和未标记样本，按照统计的观点，对于每一个样本的产生，其背后都有一个模型，即样本生成模型（generative models）。样本生成模型的参数先由标记样本确定，再通过标记样本和利用当前模型判断标记的未标记样本共同调整。生成模型（Generative Model)中目前最流行的方法是期望最大化（EM）算法，期望最大化是一种基于循环过程的最大似然参数估计方法，用于解决带缺失数据的参数估计问题。是最早的半监督学习方法。 EM算法描述 * EM是一种聚类算法聚类：将数据集中的数据分成若干类（簇），使类内相似度尽可能大，类间相似度尽可能小 EM算法是基于模型的聚类方法，假设样本分布符合高斯混合模型，算法目的是确定各个高斯部件的参数，充分拟合给定数据，并得到一个模糊聚类，即每个样本以不同概率属于每个高斯分布，概率数值将由以上各个参数计算得到。极大似然估计(MLE) * 独立同分布(IID)的数据其概率密度函数为似然函数定义为 log似然函数定义为的极大似然估计为极大似然估计(MLE) * 如求正态分布均值和方差的MLE： EM问题描述高斯混合模型被定义为M个高斯密度函数的线性组合：其中为均值为