- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
Microsoft Word - 标记样本和无标记样本学习.pdf
标记样本和无标记样本学习
在传统的监督学习中,学习器通过对大量有标记的 (labeled)训练例进行学习,从而
建立模型用于预测未见示例的标记。这里的 “标记”(label)是指示例所对应的输出,在分
类问题中标记就是示例的类别,而在回归问题中标记就是示例所对应的实值输出。随着数据
收集和存储技术的飞速发展,收集大量未标记的 (unlabeled)示例已相当容易,而获取大
量有标记的示例则相对较为困难,因为获得这些标记可能需要耗费大量的人力物力。例如在
计算机辅助医学图像分析中,可以从医院获得大量的医学图像作为训练例,但如果要求医学
专家把这些图像中的病灶都标识出来,则往往是不现实的。事实上,在真实世界问题中通常
存在大量的未标记示例,但有标记示例则比较少,尤其是在一些在线应用中这一问题更加突
出。例如,在进行 Web 网页推荐时,需要用户标记出哪些网页是他感兴趣的,很少会有用户
愿意花大量的时间来提供标记,因此有标记的网页示例比较少,但 Web 上存在着无数的网页,
它们都可作为未标记示例来使用。
显然,如果只使用少量的有标记示例,那么利用它们所训练出的学习系统往往很难具有
强泛化能力;另一方面,如果仅使用少量 “昂贵的”有标记示例而不利用大量 “廉价的”未
标记示例,则是对数据资源的极大的浪费。因此,在有标记示例较少时,如何利用大量的未
标记示例来改善学习性能已成为当前机器学习研究中最受关注的问题之一。
目前,利用未标记示例的主流学习技术主要有三大类,即半监督学习(semi-supervised
learning)、直推学习 (transductive learning)和主动学习 (active learning)。这三类
技术都是试图利用大量的未标记示例来辅助对少量有标记示例的学习,但它们的基本思想却
有显著的不同。在半监督学习中,学习器试图自行利用未标记示例,即整个学习过程不需人
工干预,仅基于学习器自身对未标记示例进行利用。直推学习与半监督学习的相似之处是它
也是由学习器自行利用未标记示例,但不同的是,直推学习假定未标记示例就是测试例,即
学习的目的就是在这些未标记示例上取得最佳泛化能力。换句话说,半监督学习考虑的是一
个 “开放世界”,即在进行学习时并不知道要预测的示例是什么,而直推学习考虑的则是一
个 “封闭世界”,在学习时已经知道了需要预测哪些示例。实际上,直推学习这一思路直接
来源于统计学习理论[Vapnik98]([Vapnik98] V. N. Vapnik. Statistical Learning Theory,
New York: Wiley, 1998),并被一些学者认为是统计学习理论对机器学习思想的最重要的贡
献 1。其出发点是不要通过解一个困难的问题来解决一个相对简单的问题。V. Vapnik 认为,
经典的归纳学习假设期望学得一个在整个示例分布上具有低错误率的决策函数,这实际上把
问题复杂化了,因为在很多情况下,人们并不关心决策函数在整个示例分布上性能怎么样,
而只是期望在给定的要预测的示例上达到最好的性能。后者比前者简单,因此,在学习过程
中可以显式地考虑测试例从而更容易地达到目的。这一思想在机器学习界目前仍有争议,但
直推学习作为一种重要的利用未标记示例的技术,则已经受到了众多学者的关注。主动学习
和前面两类技术不同,它假设学习器对环境有一定的控制能力,可以 “主动地”向学习器之
外的某个 “神谕”(oracle)进行查询来获得训练例的标记。因此,在主动学习中,学习器自
行挑选出一些未标记示例并通过神谕查询获得这些示例的标记,然后再将这些有标记示例作
为训练例来进行常规的监督学习,而其技术难点则在于如何使用尽可能少的查询来获得强泛
化能力。对比半监督学习、直推学习和主动学习可以看出,后者在利用未标记示例的过程中
需要与外界进行交互,而前两者则完全依靠学习器自身,正因为此,也有一些研究者将直推
学习作为一种半监督学习技术来进行研究。
文档评论(0)