多示例学习和多标记学习的研究.PDFVIP

  1. 1、本文档共14页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多示例学习与多标记学习的研究 张敏灵 周志华 1、研究背景 “机器学习”是研究怎样通过计算机模拟或实现人类学习活动的科学,是人 工智能的核心研究领域之一。自上世纪八十年代起,经过二十多年的蓬勃发展, 机器学习已成为计算机科学技术中最受关注的研究领域之一。在机器学习中,监 督学习(supervised learning)是研究得最多、应用最广泛的一种学习框架。 在该学习框架下,每个真实世界的对象由一个包含若干属性的示例进行描 述。与此同时,该示例对应于一个概念标记以表达其语义信息。学习系统通过对 训练集中具有概念标记的训练例进行学习,以尽可能正确地预测未见对象的概念 标记。在传统监督学习框架下,真实世界的对象与其描述及概念标记之间都是一 [1] 一对应的关系。一般认为,这样的学习问题是没有歧义性(ambiguity)的 。 然而,歧义性对象在真实世界中却是广泛存在的。例如,对于图 1(a)所示的 图像对象,从内容上看该对象包含了多种自然景物的描述信息,从概念上看该对 象同时具有山、树木和湖泊等多个概念标记。再如,对于图 1(b)所示的网页对象, 从内容上看该对象包含了多个段落的描述信息,从概念上看该对象同时具有交 (a) (b) 图 1. 歧义性对象 (a) 自然场景图像 (b)新闻网页 通、经济甚至文化等多个概念标记。因此,这些真实世界的对象无论从内容描述 还是概念标记上都出现了歧义性。显然,基于传统的监督学习框架将很难用一个 示例来完整地进行对象描述,且对象所对应的概念标记也不再是唯一的了。 这里,我们主要考察两种处理歧义性对象的学习框架:多示例学习 (multi-instance learning)[2] 以及多标记学习(multi-label learning)[3] 。多示例学习从输 入空间,即内容表示上来考察对象的歧义性;而多标记学习则是从输出空间,也 就是概念标记上来考察对象的歧义性。本文接下来首先将从问题起源、研究现状 以及我们的研究成果分别对这两种学习框架进行介绍。 此外,通过对歧义性学习问题的深入研究,我们还提出了多示例多标记学习 (multi-instance multi-label learning)[4,5]这一新型机器学习框架。多示例多标记学从 输入空间和输出空间两个方面同时考察对象的歧义性,相比于多示例学习或者多 标记学习,可以更加自然且有效地处理歧义性对象。最后,本文将对进一步的研 究工作进行展望。 2、多示例学习 2.1 问题起源 [2] 上世纪 90 年代中期,Dietterich 等人 对药物活性预测问题进行了研究。该 问题的输入对象是一个分子,其输出是该分子与某个目标“绑定区域”耦合的紧 密程度。对适于制造药物的分子来说,它的某个低能形状和期望的绑定区域将耦 合得很紧密;而对不适于制造药物的分子来说,它和期望的绑定区域将耦合得不 好。学习系统通过对已知适于或不适于制药的分子进行分析,以尽可能正确地预 测某种新的分子是否适合制造这种药物。 图2. 分子的形状随着“内部键”的转动而变化[2] 该问题的困难之处在于,每一个分子有很多种可能的低能形状,只要该分子 在其中一种形状下与期望的绑定区域紧密耦合,该分子就适于制造药物,如图 2 所示。生物化学专家只知道哪些分子适于制药,并不知道具体的哪一种形状起到 了决定性作用,这就使得预测新的适于制药的分子成为一个非常困难的问题。 一种直观解决上述问题的方法是将正包中所有的示例看作正例,将反包中所 有的示例看作反例,从而利用传统的监督学习方法求解。然而,Dietterich 等人[2] 的实验结果表明,由于正包中大量存在的伪正例(false positive instances)而引入的 噪音,上述方法很难有效地解决多示例学习问题。为此,他们将每个分子作为一 个包,将分子的不同低能形状作为包中的示例,从而提出了多示例学习的概念。 在多示例学习中,每个训练包由多个示例组成,示例没有概念标记,但每个 训练

您可能关注的文档

文档评论(0)

jyf123 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:6153235235000003

1亿VIP精品文档

相关文档