多示例学习和多标记学习的研究.PDFVIP

下载本文档

9
0
约1.45万字
约 14页
2017-09-18 发布于江苏
举报
版权申诉

多示例学习和多标记学习的研究.PDF

1、本文档共14页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多示例学习与多标记学习的研究张敏灵周志华 1、研究背景 “机器学习”是研究怎样通过计算机模拟或实现人类学习活动的科学，是人工智能的核心研究领域之一。自上世纪八十年代起，经过二十多年的蓬勃发展，机器学习已成为计算机科学技术中最受关注的研究领域之一。在机器学习中，监督学习(supervised learning)是研究得最多、应用最广泛的一种学习框架。在该学习框架下，每个真实世界的对象由一个包含若干属性的示例进行描述。与此同时，该示例对应于一个概念标记以表达其语义信息。学习系统通过对训练集中具有概念标记的训练例进行学习，以尽可能正确地预测未见对象的概念标记。在传统监督学习框架下，真实世界的对象与其描述及概念标记之间都是一 [1] 一对应的关系。一般认为，这样的学习问题是没有歧义性(ambiguity)的。然而，歧义性对象在真实世界中却是广泛存在的。例如，对于图 1(a)所示的图像对象，从内容上看该对象包含了多种自然景物的描述信息，从概念上看该对象同时具有山、树木和湖泊等多个概念标记。再如，对于图 1(b)所示的网页对象，从内容上看该对象包含了多个段落的描述信息，从概念上看该对象同时具有交 (a) (b) 图 1. 歧义性对象 (a) 自然场景图像 (b)新闻网页通、经济甚至文化等多个概念标记。因此，这些真实世界的对象无论从内容描述还是概念标记上都出现了歧义性。显然，基于传统的监督学习框架将很难用一个示例来完整地进行对象描述，且对象所对应的概念标记也不再是唯一的了。这里，我们主要考察两种处理歧义性对象的学习框架：多示例学习 (multi-instance learning)[2] 以及多标记学习(multi-label learning)[3] 。多示例学习从输入空间，即内容表示上来考察对象的歧义性；而多标记学习则是从输出空间，也就是概念标记上来考察对象的歧义性。本文接下来首先将从问题起源、研究现状以及我们的研究成果分别对这两种学习框架进行介绍。此外，通过对歧义性学习问题的深入研究，我们还提出了多示例多标记学习 (multi-instance multi-label learning)[4,5]这一新型机器学习框架。多示例多标记学从输入空间和输出空间两个方面同时考察对象的歧义性，相比于多示例学习或者多标记学习，可以更加自然且有效地处理歧义性对象。最后，本文将对进一步的研究工作进行展望。 2、多示例学习 2.1 问题起源 [2] 上世纪 90 年代中期，Dietterich 等人对药物活性预测问题进行了研究。该问题的输入对象是一个分子，其输出是该分子与某个目标“绑定区域”耦合的紧密程度。对适于制造药物的分子来说，它的某个低能形状和期望的绑定区域将耦合得很紧密；而对不适于制造药物的分子来说，它和期望的绑定区域将耦合得不好。学习系统通过对已知适于或不适于制药的分子进行分析，以尽可能正确地预测某种新的分子是否适合制造这种药物。图2. 分子的形状随着“内部键”的转动而变化[2] 该问题的困难之处在于，每一个分子有很多种可能的低能形状，只要该分子在其中一种形状下与期望的绑定区域紧密耦合，该分子就适于制造药物，如图 2 所示。生物化学专家只知道哪些分子适于制药，并不知道具体的哪一种形状起到了决定性作用，这就使得预测新的适于制药的分子成为一个非常困难的问题。一种直观解决上述问题的方法是将正包中所有的示例看作正例，将反包中所有的示例看作反例，从而利用传统的监督学习方法求解。然而，Dietterich 等人[2] 的实验结果表明，由于正包中大量存在的伪正例(false positive instances)而引入的噪音，上述方法很难有效地解决多示例学习问题。为此，他们将每个分子作为一个包，将分子的不同低能形状作为包中的示例，从而提出了多示例学习的概念。在多示例学习中，每个训练包由多个示例组成，示例没有概念标记，但每个训练