- 401
- 0
- 约3.25千字
- 约 32页
- 2016-09-20 发布于湖北
- 举报
特点:不同的图基方法大体上都差不多,只不过是损失函数和正规则器的选择不同而已,其关键是要构建一个好的图。 优点:物理原理能够很好的解释。 缺点:目前对于图的构建研究还不是很深入。 2.1 图基方法 背景:TSVM是为了改进SVM在文本分类中本已出色的表现而做的更一步改进.使用SVM 进行文本分类一个问题是难于建造出那么多的标记文档,要么是可用的训练数据本身就少,或者是用人工方法把无标记的文档分类为有标记的文档所花费的功夫无法承受。这样就引出了TSVM。 定义:是标准SVM在半监督学习当中的拓展,是通过加入约束项使得未标记数据落在Margin之外,即使得分类的超平面避开数据密度高的区域 。这里的未标记样本的特点就是使得决策面避开样本的密集区。 优点:考虑无标签样本对分类器的影响,并且结合SVM算法实现的一种高效的分类算法。 适用:能够用SVM的地方,自然想到用转导支持向量机能够获得更好的效果 缺点:时间复杂度比较高,需要预先设置正负比例等的不足。 3 转导支持向量机(TSVM) 返回 半监督学习的不足 通过半监督学习利用未标记示例后,有时不仅不能提高泛化能力,反而会使得性能下降。 在模型假设不符合真实情况或者未标记示例的分布与有标记示例的分布有较大差异时,进行半监督学习有可能导致性能下降。 另一方面,随着训练不断进行,自动标记的示例中的噪音会不断积累,其负作用会越来越大。 谢谢! * * * * * * * * * * * * * * 半监督学习(Semi-supervised?Learning ) 有监督的学习:学习器通过对大量有标记的训练例进行学习,从而建立模型用于预测未见示例的标记(label)。很难获得大量的标记样本。 无监督的学习:无训练样本,仅根据测试样本的在特征空间分布情况来进行标记,准确性差。 半监督的学习:有少量训练样本,学习机以从训练样本获得的知识为基础,结合测试样本的分布情况逐步修正已有知识,并判断测试样本的类别。 学习分类 半监督学习的过程 传统的训练学习算法需要利用大量有标记的样本进行学习。 随着信息技术的飞速发展,收集大量未标记的(unlabeled)样本已相当容易,而获取大量有标记的示例则相对较为困难,因为获得这些标记可能需要耗费大量的人力物力。 如何利用大量的未标记样本来改善学习性能成为当前模式识别研究中备受关注的问题。 优点:半监督学习(Semi-supervised?Learning)能够充分利用大量的未标记样本来改善分类器的性能,是目前利用未标记样本进行学习的主流技术。 半监督学习背景 在进行Web网页推荐时,需要用户标记出哪些网页是他感兴趣的,很少会有用户愿意花大量的时间来提供标记,因此有标记的网页示例比较少,但Web上存在着无数的网页,它们都可作为未标记示例来使用。 这类问题直接来自于实际应用:例如,大量医学影像,医生把每张片子上的每个病例都标出来再进行学习,是不可能的,能否只标一部分,并且还能利用未标的部分? 半监督学习的应用领域 半监督学习的主要方法 生成模型(Generative Model) 图基方法(graph-based methods) 转导支持向量机(Transductive Support Vector Machines ) 生成模型(Generative Model) 概述:样本数据分为标记样本和未标记样本,按照统计的观点,对于每一个样本的产生,其背后都有一个模型,即样本生成模型(generative models)。样本生成模型的参数先由标记样本确定,再通过标记样本和利用当前模型判断标记的未标记样本共同调整。 生成模型(Generative Model)中目前最流行的方法是期望最大化(EM)算法,期望最大化是一种基于循环过程的最大似然参数估计方法,用于解决带缺失数据的参数估计问题。是最早的半监督学习方法。 EM算法描述 * EM是一种聚类算法 聚类:将数据集中的数据分成若干类(簇),使类内相似度尽可能大,类间相似度尽可能小 EM算法是基于模型的聚类方法,假设样本分布符合高斯混合模型,算法目的是确定各个高斯部件的参数,充分拟合给定数据,并得到一个模糊聚类,即每个样本以不同概率属于每个高斯分布,概率数值将由以上各个参数计算得到。 极大似然估计(MLE) * 独立同分布(IID)的数据 其概率密度函数为 似然函数定义为 log似然函数定义为 的极大似然估计为 极大似然估计(MLE) * 如求正态分布均值和方差的MLE: EM问题描述 高斯混合模型被定义为M个高斯密度函数的线性组合: 其中 为均值为
您可能关注的文档
- TaskerⅢ型表面金属氧化详解.ppt
- TCA785移相控制芯片应用方法的改进文档详解.doc
- TD-LTE技术原理介绍详解.pptx
- E+H电导率分析仪详解.ppt
- TE31表面结构详解.pptx
- E8+病史采集+病例分析+正确答案)详解.doc
- EASV6.0合并报表新权益法操作手册详解.doc
- eBay-paypal培训详解详解.ppt
- eBay入门培训详解详解.ppt
- TEM等(武汉理工测试技术粉晶电子衍射)详解.ppt
- 广东省广州省实验中学教育集团2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州大学附属中学2025-2026学年八年级上学期奥班期中物理试题(解析版).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(含答案).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第八十六中学2025-2026学年八年级上学期期中物理试题(解析版).docx
- 广东省广州市第八十九中学2025-2026学年八年级上学期期中考试物理试题(含答案).docx
- 广东省广州市第二中学2025-2026学年八年级上学期期中考试物理试题(解析版).docx
- 2026《中国人寿上海分公司营销员培训体系优化研究》18000字.docx
- 《生物探究性实验教学》中小学教师资格模拟试题.docx
原创力文档

文档评论(0)