《模式识别》课件 第十章 半监督学习.pptx

《模式识别》课件 第十章 半监督学习.pptx

  1. 1、本文档共64页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

第十章半监督学习

研究背景ImageNet数据集——图像分类数据DOTA数据集——目标检测数据集深度学习方法性能大量标注数据依赖获取引言

研究背景缺乏大量的标注数据,获取标注数据成本大,如遥感领域、医学领域训练过程中有从未见过的新类,新类只能借助少数标注样本训练样本数量不足,限制了已有很多分类模型、检测模型的泛化性能如何将少量标注数据上学习到的知识和大量未标记数据上的信息共同利用?小样本问题高光谱遥感影像医学影像光学遥感影像引言

传统机器学习分两类:监督学习、无监督学习监督学习利用有标记样本进行学习,对标记样本的数量要求较多;无监督学习仅仅是对未标记样本进行学习,不能保证精度。现实情况下,同时存在有标记样本和未标记样本的情况也会经常出现。引言

实际上,未标记样本虽然没有直接含有类别标记信息,但如果它们和有标记样本是从相同的数据中独立同分布采样得到的,则它们包含的有关数据分布的信息对学习模型有很大帮助。如何让学习过程不依赖外界的咨询交互,自动利用未标记样本所含信息来提高模型性能便是本专题所要介绍的内容,即半监督学习(Semi-SupervisedLearning,SSL)。引言

目录10.1半监督学习10.2半监督分类10.3半监督聚类10.4应用实例10.5延伸阅读

目录10.1半监督学习10.2半监督分类10.3半监督聚类10.4应用实例10.5延伸阅读

10.1半监督学习在互联网应用中,有一项叫做网页推荐,其应用十分广泛。在商家进行网页推荐时,需要用户先对感兴趣的网页进行标记。实际上,有标记的网页样本是少数的。仅仅利用少部分有标记网页来进行训练,得到的模型泛化能力不会太好。互联网上存在着无数网页可以用作未标记样本,能不能有效的利用这些未标记网页来提高模型的性能呢?

10.1半监督学习将这个问题形式化,用具体的公式符号来表示。训练样本集类别标记是已知的,称为“有标记”(labeled)样本。样本集类标标记是未知的,称为“未标记”(unlabeled)样本。

10.1半监督学习一般思路仅利用已标记样本集中的样本进行模型构建。弊端未标记样本集中的信息就会被浪费,此外,样本数量一般较小,也就是说训练样本数量不足,那么学习得到的模型的泛化能力和性能往往是不好的。解决思路合理的结合使用样本集。

10.1半监督学习解决思路一把中的样本全部进行标记,也就是把未标记样本转化成标记样本后用于学习。弊端显然需要大量精力和时间。

10.1半监督学习解决思路二可以利用中的样本先学习得到一个模型,然后利用这个模型从中挑出一个样本,对这个样本的标签进行查询,然后把这个获得标签的样本作为新的标记样本加入中重新学习一个模型,之后再去中挑样本,不断重复这个操作。这样的学习方式被称为主动学习(ActiveLearning)。其目标是希望尽可能少的查询标签来获得尽量好的模型性能。

10.1半监督学习弊端显然主动学习引入了额外的专家知识,仍然需要与外界产生交互来将部分未标记样本转变为有标记样本。

10.1半监督学习解决思路三利用未标记样本提供的数据分布的信息。聚类模型(a)无未标记样本(b)有未标记样本(a)(b)

10.1半监督学习以上这样的学习方式被称为半监督学习。让学习器不依赖外界交互、自动的利用未标记样本来提升学习性能,就是半监督学习(Semi-SupervisedLearning,SSL)。即训练集中同时包含有标记样本数据和未标记样本数据。

10.1半监督学习两个前提假设聚类假设(ClusterAssumption):假设数据存在簇结构,同一个簇的样本属于同一个类别。流形假设(ManifoldAssumption):假设数据分布在一个流形结构上,邻近的样本拥有相似的输出值。

10.1半监督学习一个更一般的假设半监督假设:如果两个样本相似,那么他们具有相似的输出。聚类假设(ClusterAssumption)流形假设(ManifoldAssumption)

10.1半监督学习半监督学习的分类纯(pure)半监督学习直推学习(TransudativeLearning)

目录10.1半监督学习10.2半监督分类10.3半监督聚类10.4应用实例10.5延伸阅读

10.2半监督分类半监督学习的提出半监督学习提出于大约20世纪60年代中期,随着在应用中利用未标记数据的需求的发展,提出了许多半监督思想的算法。生成式模型是最早的半监督学习方法,紧接着出现了转导SVM(TransductiveSVM,TSVM)、基于图的半监督算法等一系列经典算法。

10.2半监督分类10.2.1生成式模型给定样本,类别标记为假设样本是由高斯混合模

您可能关注的文档

文档评论(0)

lai + 关注
实名认证
内容提供者

精品资料

版权声明书
用户编号:7040145050000060

1亿VIP精品文档

相关文档