- 0
- 0
- 约1.79万字
- 约 6页
- 2026-02-26 发布于北京
- 举报
哈希基线:在预训练模型时代重新思考
IlyassMoummadKawtarZaherLukasRauchAlexisJoly
INRIA,LIRMM,UniversitédeMontpellier,France
InstitutNationaldel’Audiovisuel,France
UniversityofKassel,Germany
ABSTRACT码长度或不同的数据集,这限制了它们的可扩展性和
泛化能力。
信息检索与紧凑二进制嵌入,也称为哈希,对于可扩
本展的快速搜索应用至关重要,然而最先进的哈希方法与此同时,基础模型的出现通过从庞大而多样的
译需要昂贵且特定于场景的训练。在这项工作中,我们数据集中生成抽象潜在空间中的强大嵌入来彻底改变
中介绍了哈希基线,这是一种强大的无需训练的哈希方了数据表示[2]。这些表示捕捉了丰富的语义信息,为
1法,利用了能够生成丰富预训练嵌入的强大预训练编各种下游任务提供了一个强大的起点。这自然引发了
v
7码器。我们重新审视了经典的、无需训练的哈希技术一个问题:我们能否通过直接利用这些预训练的嵌入
2——主成分分析、随机正交投影和阈值二值化——以来重新思考哈希,而不是投入到昂贵、特定场景的哈
4
4产生一个强有力的哈希基线。我们的方法结合这些技希网络训练中?
1
9.术与来自最先进的视觉和音频编码器的冻结嵌入,从为了解决这个问题,我们引入了哈希基线,这是
0而在没有任何额外学习或微调的情况下获得具有竞争一种无需训练的方法,重新审视了经典的哈希技术,
5
2力的检索性能。为了展示这种方法的通用性和有效性,即主成分分析(PCA)、随机正交投影[3]以及通过阈
:我们在标准图像检索基准测试以及新引入的音频哈希值进行二值化。当这些技术应用于预训练编码器的嵌
v
i基准测试上对其进行评估。1入时,它们的结合始终能产生具有竞争力的,并且有
x
r
aIndexTerms—哈希基线,图像检索,音频检索,时是前沿的表现,所有这些都是在无需进一步学习的
二进制码,预训练编码器。情况下实现的。
受音频检索日益重要性的驱动,我们也建立了首
1.介绍个专门针对音频哈希的综合基准。与分类任务相比
——现代预训练音频模型通常能实现非常高的准确
快速准确地使用二进制嵌入进行检索对于大规模率[4],使得进一步进步变得困难——检索提供了对
搜索至关重要。传统的哈希方法依赖于手工制作的描音频理解更具挑战性和区分度的测试。即使相关性是
述符来生成紧凑的二进制代码,而更近一些的深度哈在类别级别定义的,成功的检索也需要将所有相关的
希技术——无论是监督学习还是无监督学习——通常项目排在不相关的项目之前,这对嵌入空间结构施加
需要从头开始训练模型。这个训练过程通常计算成本了比分类更严格的约束,而分类只需要最顶上的标签
高昂且耗时[1]。此外,这些方法一般缺乏灵活性,因正确即可。我们的基准涵盖了多种音频类型,包括音
为它们必须为每个特定场景重新训练,比如不同的代乐流派、语音情感、人类发声和环境声音,连同哈希
基线一起,为音频哈希提供了一个全面
您可能关注的文档
- 测量说话人去识别系统中的软生物特征泄漏.pdf
- 联邦自适应表决优化技术: 通过掩码最优传输在联邦学习中的精确分布对齐.pdf
- 利用 物理信息背景定向薛定谔断层成像技术进行室内气流成像.pdf
- 在大型语言模型中模拟偏见缓解场景.pdf
- 因果反事实 RAG:将因果反事实推理整合到 RAG 中.pdf
- 多通道差分 ASR 在智能眼镜上对佩戴者语音识别的鲁棒性.pdf
- 通过在 3D 高斯图表示中使用解析的碰撞锥屏障函数实现感知集成的安全关键控制.pdf
- GestOS:通过大型语言模型进行高级手势解析以控制任何类型的机器人.pdf
- 大型语言模型系统中提示缺陷的分类法.pdf
- Q-ROAR:量化长上下文大语言模型中 RoPE 位置插值的异常感知重新缩放.pdf
原创力文档

文档评论(0)