MIML多示例多标记学习.PDFVIP

下载本文档

205
0
约2.62万字
约 17页
2017-03-10 发布于辽宁
举报
版权申诉

MIML多示例多标记学习.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

MIML多示例多标记学习.PDF

* MIML ：多示例多标记学习周志华1 张敏灵1,2 1 南京大学计算机软件新技术国家重点实验室，南京210093 2 河海大学计算机及信息工程学院，南京210098 1. 引言在利用机器学习技术解决实际问题时，常见的做法是先对真实对象进行特征提取，用一个特征向量来描述这个对象，这样就得到了一个示例（instance ），然后把示例与该对象所对应的类别标记（label ）关联起来，就得到了一个例子（example ）。在拥有了一个较大的例子集合之后，就可以利用某种学习算法来学得示例空间与标记空间之间的一个映射，该映射可以预测未见示例（unseen instance ）的标记。假设每个对象只有一个类别标记，那么形式化地来说，令为示例空间、为标记空间，则学习任务是从数据集中学得函数，其中为一个示例而为示例所属的类别标记。在待学习对象具有明确的、单一的语义时，上面的学习框架已经取得了巨大的成功。然而，真实世界的对象往往并不只具有唯一的语义，而是可能具有多义性的。例如，图 1(a)中的这幅图像，既可认为它属于“大象”这个类别，也可认为它属于“狮子”、“草地”、甚至“热带”、 “非洲”；图1(b)中的这个网页，既可认为它属于“体育”这个类别，也可因为贝克汉姆娱乐明星味十足而认为它属于“娱乐”类，甚至可以因为皇家马德里足球队出访的旅游、赚钱性质远大于比赛性质而认为它属于“旅游”类、“经济”类。由于这样的多义性对象不再只具有唯一的语义，这就使得前述的只考虑明确的、单一的语义的学习框架难以取得好的效果。值得注意的是，对多义性对象进行学习是一个非常重要的问题。目前实际应用中遇到的很多难题都是由对象的多义性所造成的。例如在基于内容的图像检索中，众所周知的难题是“语义鸿沟”，即从图像的低层特征到高层语义之间存在难以逾越的障碍。笔者认为，这一语义鸿沟存在的本质原因之一，就是因为图像是一种多义性对象：同样的特征描述、不同的语义。试想，如果一幅图像只具有唯一的语义，那么哪里还会有什么语义鸿沟呢？笔者认为，要解决多义性造成的问题，首先需要从某个任务所涉及的众多“可能语义”中把某个具体的多义性对象所能具有的“合适语义”找出来，然后再根据具体的上下文从这些“合适语义”中确定当前的“语境语义”。而其中第一步，实际 *本文得到国家自然科学基金）、江苏省自然科学基金（BK2008018 ）和江苏省333 高层次人才培养工程基金的资助 1 (a) 一幅图像 (b) 一个网页图1 多义性对象的两个例子上就是要为对象赋予合适的类别标记子集，而不再是唯一的类别标记。针对这个目的，笔者提出了 [1][2] MIML—— 即“多示例多标记学习”（Multi-Instance Multi-Label learning ）这一学习框架。本章将对这方面的研究进展做一个简介，主要内容及更详细的介绍可参见[2] 。 2. MIML 框架提出MIML 的基本考虑，是多义性对象往往具有复杂的内涵，只用一个示例（即一个特征向量）来进行表示是一种过度简化，在表示阶段就丢失了有用的信息，后续的学习阶段将面临极大的困难。事实上，一个多义性对象往往可以用多个示例来描述。例如对图像来说，如果使用某种技术将图像划分为若干个区域，那么每个区域都可以用一个示例来描述，这样，一幅图像就可表示成多个示例组成的一个集合；对文档来说，如果使用某种技术将其划分为若干部分，例如不同的章节段落，那么每个部分都可以用一个示例来描述，这样，一个文档就可表示