- 1、本文档共14页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多示例学习与多标记学习的研究
张敏灵 周志华
1、研究背景
“机器学习”是研究怎样通过计算机模拟或实现人类学习活动的科学,是人
工智能的核心研究领域之一。自上世纪八十年代起,经过二十多年的蓬勃发展,
机器学习已成为计算机科学技术中最受关注的研究领域之一。在机器学习中,监
督学习(supervised learning)是研究得最多、应用最广泛的一种学习框架。
在该学习框架下,每个真实世界的对象由一个包含若干属性的示例进行描
述。与此同时,该示例对应于一个概念标记以表达其语义信息。学习系统通过对
训练集中具有概念标记的训练例进行学习,以尽可能正确地预测未见对象的概念
标记。在传统监督学习框架下,真实世界的对象与其描述及概念标记之间都是一
[1]
一对应的关系。一般认为,这样的学习问题是没有歧义性(ambiguity)的 。
然而,歧义性对象在真实世界中却是广泛存在的。例如,对于图 1(a)所示的
图像对象,从内容上看该对象包含了多种自然景物的描述信息,从概念上看该对
象同时具有山、树木和湖泊等多个概念标记。再如,对于图 1(b)所示的网页对象,
从内容上看该对象包含了多个段落的描述信息,从概念上看该对象同时具有交
(a) (b)
图 1. 歧义性对象 (a) 自然场景图像 (b)新闻网页
通、经济甚至文化等多个概念标记。因此,这些真实世界的对象无论从内容描述
还是概念标记上都出现了歧义性。显然,基于传统的监督学习框架将很难用一个
示例来完整地进行对象描述,且对象所对应的概念标记也不再是唯一的了。
这里,我们主要考察两种处理歧义性对象的学习框架:多示例学习
(multi-instance learning)[2] 以及多标记学习(multi-label learning)[3] 。多示例学习从输
入空间,即内容表示上来考察对象的歧义性;而多标记学习则是从输出空间,也
就是概念标记上来考察对象的歧义性。本文接下来首先将从问题起源、研究现状
以及我们的研究成果分别对这两种学习框架进行介绍。
此外,通过对歧义性学习问题的深入研究,我们还提出了多示例多标记学习
(multi-instance multi-label learning)[4,5]这一新型机器学习框架。多示例多标记学从
输入空间和输出空间两个方面同时考察对象的歧义性,相比于多示例学习或者多
标记学习,可以更加自然且有效地处理歧义性对象。最后,本文将对进一步的研
究工作进行展望。
2、多示例学习
2.1 问题起源
[2]
上世纪 90 年代中期,Dietterich 等人 对药物活性预测问题进行了研究。该
问题的输入对象是一个分子,其输出是该分子与某个目标“绑定区域”耦合的紧
密程度。对适于制造药物的分子来说,它的某个低能形状和期望的绑定区域将耦
合得很紧密;而对不适于制造药物的分子来说,它和期望的绑定区域将耦合得不
好。学习系统通过对已知适于或不适于制药的分子进行分析,以尽可能正确地预
测某种新的分子是否适合制造这种药物。
图2. 分子的形状随着“内部键”的转动而变化[2]
该问题的困难之处在于,每一个分子有很多种可能的低能形状,只要该分子
在其中一种形状下与期望的绑定区域紧密耦合,该分子就适于制造药物,如图 2
所示。生物化学专家只知道哪些分子适于制药,并不知道具体的哪一种形状起到
了决定性作用,这就使得预测新的适于制药的分子成为一个非常困难的问题。
一种直观解决上述问题的方法是将正包中所有的示例看作正例,将反包中所
有的示例看作反例,从而利用传统的监督学习方法求解。然而,Dietterich 等人[2]
的实验结果表明,由于正包中大量存在的伪正例(false positive instances)而引入的
噪音,上述方法很难有效地解决多示例学习问题。为此,他们将每个分子作为一
个包,将分子的不同低能形状作为包中的示例,从而提出了多示例学习的概念。
在多示例学习中,每个训练包由多个示例组成,示例没有概念标记,但每个
训练
您可能关注的文档
- 防卫省の品质管理体制と今後の取组.pdf
- (译稿)FL3100_3101紫外红外双频火焰探测器使用说明书.pdf
- .《生活垃圾填埋污染控标准(修订)》征求意见稿编制说明.pdf
- 2.2 空域管理.ppt
- 2010-2011中国网络团购行业研究报告.pdf
- 2012-01答案.pdf
- 2016年北京外国语大学翻译硕士汉语写作与百科知识考研,历年考研真题,考研参考书,复试分数线,考研报录比.pdf
- 2016年北京外国语大学翻译硕士汉语写作与百科知识考研,历年考研真题,考研参考书,考研经验,分数线.pdf
- 2016年北京外国语大学翻译硕士汉语写作与百科知识考研,历年考研真题,考研经验,考研参考书.pdf
- 2016年北京外国语大学翻译硕士考研,历年考研真题,考研参考书,考研大纲,分数线,学姐经验.pdf
- 基于人工智能教育平台的移动应用开发,探讨跨平台兼容性影响因素及优化策略教学研究课题报告.docx
- 高中生物实验:城市热岛效应对城市生态系统服务功能的影响机制教学研究课题报告.docx
- 信息技术行业信息安全法律法规研究及政策建议教学研究课题报告.docx
- 人工智能视角下区域教育评价改革:利益相关者互动与政策支持研究教学研究课题报告.docx
- 6 《垃圾填埋场渗滤液处理与土地资源化利用研究》教学研究课题报告.docx
- 小学音乐与美术教师跨学科协作模式构建:人工智能技术助力教学创新教学研究课题报告.docx
- 《航空航天3D打印技术对航空器装配工艺的创新与效率提升》教学研究课题报告.docx
- 教育扶贫精准化策略研究:人工智能技术在区域教育中的应用与创新教学研究课题报告.docx
- 《区块链技术在电子政务电子档案管理中的数据完整性保障与优化》教学研究课题报告.docx
- 《中医护理情志疗法对癌症患者心理状态和生活质量提升的长期追踪研究》教学研究课题报告.docx
文档评论(0)