基于正样本与未标记数据多标签排序方法研究.pdfVIP

基于正样本与未标记数据多标签排序方法研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

多排序:基于正样本和未标记数据

和原田龙司东京大学

本郷7‑3‑1文京区,东京{

kanehira,harada}@mi.t.u‑tokyo.ac.jp

本文中,我们专门研究了从具有不完全分配

的数据中训练多分类器的问题。这一问题在许多

多应用中具有根本的重要性,因为人工标注者几

乎不可能分配完整的集,尽管他们的判断是可靠

的。换句话说,多数据集通常具有以下特性:

(1)已标注的明确为正;(2)某些未被标

注但仍应视为正样本。这种设定在二分类设置中已被研

究为正和未标记(PU)分类问题。不完全

分配问题视为多PU排序问题,这是将经典的二分

类PU问题扩展到基于排序的多分类。我们推导了

应满足的条件以消除性带来的影响。实

验获得的结果证明了这些条件的有效性。

图1.多数据集往往包含部分标注的样本。的

被视为负样本,并且这会影响分类性能。

图1中最左侧的图像添加的情况。他们可能会识别

1.引言出“狗”和“椅子”,然后进行分配,因为它们是主

多分类处理的是允许样本具有多个的问要组成部分。然而,除此之外,还可以使用“沙发”、

题。虽然多分类的最简单解决方案是为每个类别“地毯”和“盒子”。此外,还存在许多其他可能的正

训练一个独立的分类器,但众所周知,当类别之间存确,例如场景、狗的品种和属性。

在相关性时,这种训练模型的分类性能会较低[7]。如上文示例所示,所获得的数据集具有以下特性:

因此,需要一种能够结合依赖性的多学习方(1)已标注的明确为正;(2)的不一

法。近年来,许多研究专门针对多学习展开了探定为负。由于传统的多学习模型忽略了这种不完

讨[7],[19],[6]。此外,在包括计算机视觉在内的许整性,并且将未标注的对象视为负样本,因此它们的

多领域中,多学习都有广泛的应用[5],[27],[18]。性能会受到如图1右侧所示情况的影响。因此,

的分配问题在多学习中具有根本的重要性,

为了收集用于多分类的数据集,研究人员通常使并且是亟需解决的关键问题。

用众包。另法是像[26]中那样以半自动方式收集数本文的目标是提出法,使我们能够从不完全标

据。在大多数情况下,获得的将是的但可靠注的数据中一致地训练分类器。我们按如下方式处理该设定:

的,因为在现实世界中几乎不可能分配完整的集来完

全描述图像。例如,让我们考虑人工标注者为1.已标注的明确为正。2.的标

签不一定为负。

Multi-labelRankingfromPositiveandUnlabeledData

AtsushiKanehira

文档评论(0)

kay5620 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:8001056127000014

1亿VIP精品文档

相关文档