VeS: 无监督教学像素聆听.pdfVIP

下载本文档

0
0
约1.55万字
约 6页
2025-09-28 发布于北京
举报
版权申诉

VeS: 无监督教学像素聆听.pdf

此“教育”领域文档为创作者个人分享资料，不作为权威性指导和指引，仅供参考

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

VeS:无监督教学像素聆听

SajayRaj

IndianInstituteofTechnology,Madras

sajayraj08@

Abstract[4,5]。

我们探究哪种对比性聚合策略在没有文本或空间

近期密集的音视频（AV）模型在检索和自发定位[3,8]监督的情况下，对于嘈杂的多语言语音-图像对齐最有

本方面取得了令人印象深刻的成绩，但几乎所有证据都来效。使用大规模项目瓦阿尼数据集[4,5]，我们在相同

自以英语为中心且字幕丰富的网络视频。这些目标生存的骨干网络下比较了三种方法：（1）一种全局CLIP风

译是否能在低资源、代码切换以及嘈杂的多语言环境中取格的平均池化损失[8]，（2）一种密集最大-平均标记匹

中得效果尚不清楚，而这种环境正是发展中地区的特点。配损失[3]，以及（3）两者的简单混合。

1我们展示了它们确实能做到——而且这一聚合函数的关键发现。聚合函数至关重要。密集目标优于全局

v选择变得更加关键。使用涵盖数十种印度语言和方言池化（+59%相对R@1AV），并始终产生清晰的语

0变体的多语种子集项目瓦阿尼[4,5]，我们比较了三个音对象零样本定位。这表明密集标记路由并非高资源

0对比目标：(i)全局平均池化损失（CLIP风格[8]），(ii)语料库的奢侈品，而是在数据质量和注释稀缺时变得

2.密集最大-均值标记匹配器（DenseAV风格[3]），以及更多决定性。

7(iii)一个简单的混合模型（受冻结视觉对齐策略[6,10]所有实验均在一个单个24GB消费级GPU上运

5启发）。密集目标传递一个+59%相对R@1(音频视行，通过冻结视觉主干[7,10]和轻量级适配器[6]来实

2觉)优于全局池化的改进，并显著降低平均/中位数排

:现，强调了可访问性。我们发布代码和模型以促进包容

v名，同时始终生成口语化对象的锐利的零样本定位热性的AV研究。

x图——尽管保持了视觉骨干完全冻结（无LoRA/部

a分微调）。1.1.现有工作

我们的结果表明，密集令牌路由是不高资源英语视听对比学习。早期关于跨模态检索的研究采用

语料库的奢侈品；当注释和声学清洁度稀缺时，它至关了来自图像-文本预训练的全局池化目标。CLIP的全局

重要更多。InfoNCE损失[8]提供了强大的零样本迁移能力，但丢

我们发布代码库和训练模型。弃了定位至关重要的空间/时间结构。LiT表明，即使

在视觉骨干网络是冻结的并且仅调整投影头的情况下，

竞争性迁移也是可能的[10]，我们采用这个想法来保持

1.介绍

在单个24GBGPU上的训练。

自监督的音视（AV）学习已迅速发展，取得了令晚期交互/令牌级目标。DenseAV引入了一种双向

您可能关注的文档

文档评论（0）

专业Latex文档翻译 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

VeS: 无监督教学像素聆听.pdfVIP