基于正样本与未标记数据多标签排序方法研究.pdfVIP

下载本文档

0
0
约8.85万字
约 24页
2025-12-11 发布于北京
举报
版权申诉

基于正样本与未标记数据多标签排序方法研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多排序：基于正样本和未标记数据

和原田龙司东京大学

本郷7‑3‑1文京区，东京{

kanehira,harada}@mi.t.u‑tokyo.ac.jp

本文中，我们专门研究了从具有不完全分配

的数据中训练多分类器的问题。这一问题在许多

多应用中具有根本的重要性，因为人工标注者几

乎不可能分配完整的集，尽管他们的判断是可靠

的。换句话说，多数据集通常具有以下特性：

（1）已标注的明确为正；（2）某些未被标

注但仍应视为正样本。这种设定在二分类设置中已被研

究为正和未标记（PU）分类问题。不完全

分配问题视为多PU排序问题，这是将经典的二分

类PU问题扩展到基于排序的多分类。我们推导了

应满足的条件以消除性带来的影响。实

验获得的结果证明了这些条件的有效性。

图1.多数据集往往包含部分标注的样本。的

被视为负样本，并且这会影响分类性能。

图1中最左侧的图像添加的情况。他们可能会识别

1.引言出“狗”和“椅子”，然后进行分配，因为它们是主

多分类处理的是允许样本具有多个的问要组成部分。然而，除此之外，还可以使用“沙发”、

题。虽然多分类的最简单解决方案是为每个类别“地毯”和“盒子”。此外，还存在许多其他可能的正

训练一个独立的分类器，但众所周知，当类别之间存确，例如场景、狗的品种和属性。

在相关性时，这种训练模型的分类性能会较低[7]。如上文示例所示，所获得的数据集具有以下特性：

因此，需要一种能够结合依赖性的多学习方（1）已标注的明确为正；（2）的不一

法。近年来，许多研究专门针对多学习展开了探定为负。由于传统的多学习模型忽略了这种不完

讨[7],[19],[6]。此外，在包括计算机视觉在内的许整性，并且将未标注的对象视为负样本，因此它们的

多领域中，多学习都有广泛的应用[5],[27],[18]。性能会受到如图1右侧所示情况的影响。因此，

的分配问题在多学习中具有根本的重要性，

为了收集用于多分类的数据集，研究人员通常使并且是亟需解决的关键问题。

用众包。另法是像[26]中那样以半自动方式收集数本文的目标是提出法，使我们能够从不完全标

据。在大多数情况下，获得的将是的但可靠注的数据中一致地训练分类器。我们按如下方式处理该设定：

的，因为在现实世界中几乎不可能分配完整的集来完

全描述图像。例如，让我们考虑人工标注者为1.已标注的明确为正。2.的标

签不一定为负。

Multi-labelRankingfromPositiveandUnlabeledData

AtsushiKanehira

您可能关注的文档

文档评论（0）

kay5620 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

用户编号：8001056127000014

1亿VIP精品文档

更多 >

基于正样本与未标记数据多标签排序方法研究.pdfVIP