- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
经典专科、本科、硕博、研究生、期刊毕业论文 仅供参考
精心整理 仅供参考 勿用作商业用途
摘要
半监督学习利用大量未标记数据结合少量标记数据提升学习性能。本文涉及几种半监督分类方法的评价。文章由三个主要部分组成。首先,介绍半监督学习的定义和基本假设;第二部分为本文的主体部分,介绍了四种半监督学习方法:弱监督学习、生成模型、直推式支持向量机、基于图的方法,结合数据集对其优势和缺陷进行评价;在第三部分中,本文从理论上分析了未标记数据对分类性能提升的作用。
关键词:半监督学习 分类 生成模型 直推式支持向量机 基于图的方法
Abstract
Semi-supervised learning uses a large amount of unlabeled data, together with the labeled data to build a better classifier. This paper is concerned with the evaluation of several semi-supervised methods. There are three major ingredients. The first is an introduction on the definition and some popular assumptions of semi-supervised learning. The second, which is the main ingredient of this paper, studies the four main semi-supervised methods, including weakly supervised methods, generative model, transductive support vector machine and graph-based methods. Some experiments on datasets of these methods have been carried out, to characterize their advantages and limitations. The third ingredient present the theoretical analysis of how unlabeled data can be used successfully for classification.
Key words: semi-supervised leaning, classification, generative model, transductive support vector machine, graph-based method
第一章 前言
1.1 研究背景与意义
1.1.1 半监督学习的定义
为定义半监督学习,首先我们需要明确监督学习和无监督学习的含义。
首先给出一些基本的定义 REF _Ref513594746 \r [1] REF _Ref513594746 \r \h 。样例x通常指一个D维向量x={x1,x2,?,xd},它的每一维称为一个特征,D即为特征向量的维数。训练集xi,yii=1n则是由n个样本点组成的集合,它是学习过程的输入值。标签y与样
监督学习是指,通过给定的有标记训练集xi,yii=1l,训练一个从输入X到输出Y的映射f。监督学习根据标签y的类型可分为两类。如果y是离散值,则为分类问题,此时f是一个分类器;否则为回归问题,f则为回归函数。无监督学习的输入是一个未标记数据集x
半监督学习是一种介于监督学习和无监督学习之间的学习方法 REF _Ref513594846 \r [2]。对于半监督分类问题,它综合利用标记数据集xi,yii=1l和未标记数据集xi
根据学习目的,半监督学习可分为两种类型:纯半监督学习和直推式半监督学习。前者的目标是利用给定训练集xi,yii=1l,xii=l+1u
1.1.2 半监督学习的动机
传统的监督学习需要一定规模的标记训练集,然而,实际问题中标签的获取代价很高。相比于难以获得的标记数据,我们更容易获取大量无标记数据。例如,在文本分类问题中,根据内容对文档进行人工标记很费时,但未标注的文档容易获得。半监督学习的动机在于,有效利用大量相对廉价的未标记数据提升学习性能。
半监督学习通常需要依赖某些基本假设。常用的假设有以下三种:
平滑假设 REF _Ref513594746 \r [1],即当样本x1,x2
低密度分离假设 REF _Ref513594746 \r [1],要求决策边界位于样
您可能关注的文档
- XS制药企业的研发人才管理实践研究.docx
- Y行S县支行业务转型升级研究——以房地产项目全产业链营销为例.doc
- Zara在中国的渠道策略分析.doc
- 安徽汽车产业国际竞争力研究.doc
- 安卓code smell的分析与检测方法研究.doc
- 奥尔夫体态律动在音乐教学中的实践—以金鸡湖学校教学实习为例.doc
- 鲍勃迪伦歌词中的概念隐喻.docx
- 背景音乐对商场效益的影响.doc
- 比较视域下的聂鲁达诗歌汉译研究——以《二十首情诗和一首绝望的歌》为例.docx
- 比例自适应滤波器设计.docx
- 2025至2030中国移动治疗台行业发展研究与产业战略规划分析评估报告.docx
- 2025至2030链激酶行业细分市场及应用领域与趋势展望研究报告.docx
- 2025至2030爆炸物探测扫描仪行业市场占有率及有效策略与实施路径评估报告.docx
- 2025至2030四川省智能制造行业细分市场及应用领域与趋势展望研究报告.docx
- 2026届高三二轮复习试题政治大单元突破练1生产资料所有制与分配制度含解析.docx
- 2026届高三二轮复习试题政治大单元突破练16哲学基本思想与辩证唯物论含解析.docx
- 2026届高三二轮复习试题政治大单元突破练2社会主义市场经济体制含解析.docx
- 浙江省衢州市五校联盟2025-2026学年高二上学期期中联考技术试题-高中信息技术含解析.docx
- 浙江省金丽衢十二校2026届高三上学期11月联考政治试题含解析.docx
- 2026届高三二轮复习试题政治大单元突破练7领导力量:中国共产党的领导含解析.docx
最近下载
- DB23T 1496.22-2021 劳动防护用品配备 第22部分:种植业生产人员.docx VIP
- TCL海外员工管理.docx VIP
- 神经内科DRGs病案首页诊断栏和手术操作栏填写要求.pdf VIP
- GB T 28896-2023 金属材料 焊接接头准静态断裂韧度测定的试验方法(OCR).pdf VIP
- 高中信息技术校本教材《计算机及网络简介》.pdf VIP
- 牛津树阅读绘本(适合2-8岁小童)A present for Mum【有书】.pdf VIP
- 《电击伤急救护理教程》课件.ppt VIP
- 浙江省杭州市滨江区杭二统考2024-2025学年高二上学期语文期末考试卷(含答案).docx VIP
- 工程廉政风险点及其防控措施表完整.docx VIP
- 河海大学《高等数学》 2017-2018学年第一学期期末试卷B卷.pdf VIP
原创力文档


文档评论(0)