- 1、本文档共13页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
多示例学习*
周志华
南京大学 软件新技术国家重点实验室, 江苏 南京 210093
摘 要: 在多示例学习中,训练样本是由多个示例组成的包,包是有概念标记的,但示例本身却没有概念标记。如
果一个包中至少包含一个正例,则该包是一个正包,否则即为反包。学习的目的是预测新包的类别。由于多示例学
习具有独特的性质,目前被认为是一种新的学习框架。本文对该领域的研究进展进行了综述,并对有待深入研究的
一些问题进行了讨论。
1 引言
20 世纪90 年代以来,从例子中学习(learning from examples )被认为是最有希望的机器学习途
径[1] 。如果以训练样本的歧义性(ambiguity )作为划分标准,则目前该领域的研究大致建立在三种
[2] 下,即监督学习、非监督学习和强化学习。
学习框架(learning framework )
监督学习通过对具有概念标记(concept label )的训练例进行学习,以尽可能正确地对训练集之
外的示例的概念标记进行预测。这里所有的训练样本都是有标记的,因此其歧义性最低。非监督学
习通过对没有概念标记的训练例进行学习,以发现数据中隐藏的结构。这里所有的训练样本都是没
有标记的,因此其歧义性最高。强化学习通过对没有概念标记、但与一个延迟奖赏或效用(可视为
延迟的概念标记)相关联的训练例进行学习,以获得某种从状态到行动的映射。这里所有的训练样
本都是有标记的,但与监督学习不同的是,标记是延迟的,因此强化学习的歧义性介于监督学习与
非监督学习之间。
20 世纪90 年代中后期,研究者们[3]在对药物活性预测(drug activity prediction )问题的研究中,
提出了多示例学习(multi-instance learning )的概念。在此类学习中,训练集由若干个具有概念标记
的包(bag )组成,每个包包含若干没有概念标记的示例。若一个包中至少有一个正例,则该包被标
记为正(positive ),若一个包中所有示例都是反例,则该包被标记为反(negative )。通过对训练包的
学习,希望学习系统尽可能正确地对训练集之外的包的概念标记进行预测。
与监督学习相比,多示例学习中的训练示例是没有概念标记的,这与监督学习中所有训练示例
都有概念标记不同;与非监督学习相比,多示例学习中训练包是有概念标记的,这与非监督学习的
训练样本中没有任何概念标记也不同;而与强化学习相比,多示例学习中又没有时效延迟的概念。
更重要的是,在以往的各种学习框架中,一个样本就是一个示例,即样本和示例是一一对应关系;
而在多示例学习中,一个样本(即包)包含了多个示例,即样本和示例是一对多的对应关系。因此,
多示例学习中训练样本的歧义性与监督学习、非监督学习、强化学习的歧义性都完全不同,这就使
得以往的学习方法难以很好地解决此类问题。由于多示例学习具有独特的性质和广泛的应用前景,
属于以往机器学习研究的一个盲区,因此在国际机器学习界引起了极大的反响,被认为是一种新的
[2]
学习框架 。
* 本文得到国家杰出青年科学基金和国家自然科学基金资助
本文首先介绍多示例学习的起源,然后对该领域的研究进展进行综述,最后对有待深入研究的
一些问题进行讨论。
2 问题的提出
大多数药物都是一些分子,它们通过与较大的蛋白质分子例如酶等绑定来发挥作用,药效则是
由绑定的程度决定的。对适于制造药物的分子来说,它的某个低能形状和期望的绑定区域将耦合得
很紧密;而对不适于制造药物的分子来说,它和期望的绑定区域将耦合得不好。
20 世纪90 年代中后期,T. G. Dietterich 等人[3]对药物活性预测问题进行了研究。其目的是让学
习系统通过对已知适于或不适于制药的分子进行分析,以尽可能正确地预测某种新的分子是否适合
制造药物。该问题的困难主要在于,每个分子都有很多种可能的低能形状,图 1 给出了一个例子。
而生物化学专家目前只知道哪些分子适于制药,并不知道具体的哪一种形状起到了决定性作用。如
果直接使用监督学习框架,将适于制药的分子的所有低能形状都作为正例,而将所有不适于制药的
分子的所有低能形状都作为反例,则会由于正例中噪音度太高而难以成功地进行学习。这是因为一
个分子可能有上百种低能形
您可能关注的文档
最近下载
- JBT 6898-2015 低温液体贮运设备使用安全规则.pdf
- 《J BT8296.1-1999-矿山窄轨车辆开式轮对》.pdf
- 高级口译芮靖北老师英语讲座1.ppt
- 卫生应急自救互救.pptx VIP
- 党纪微党课讲稿让党纪成为党员的行为准则.docx VIP
- 沪教牛津版英语九年级上册 Unit 6 Healthy Diet-1 Reading A Healthy Diet 教案 教学设计 Teaching Plan.docx VIP
- 2023年电气成套设备行业市场突围建议及需求分析报告.pdf VIP
- 工程管理类副总面试题.doc VIP
- 低血糖患者的护理查房.pptx
- 初中英语阅读理解七选五(含答案解析).docx
文档评论(0)