哈希基线：在预训练模型时代重新思考.pdfVIP

哈希基线：在预训练模型时代重新思考.pdf

哈希基线：在预训练模型时代重新思考

IlyassMoummadKawtarZaherLukasRauchAlexisJoly

INRIA,LIRMM,UniversitédeMontpellier,France

InstitutNationaldel’Audiovisuel,France

UniversityofKassel,Germany

ABSTRACT码长度或不同的数据集，这限制了它们的可扩展性和

泛化能力。

信息检索与紧凑二进制嵌入，也称为哈希，对于可扩

本展的快速搜索应用至关重要，然而最先进的哈希方法与此同时，基础模型的出现通过从庞大而多样的

译需要昂贵且特定于场景的训练。在这项工作中，我们数据集中生成抽象潜在空间中的强大嵌入来彻底改变

中介绍了哈希基线，这是一种强大的无需训练的哈希方了数据表示[2]。这些表示捕捉了丰富的语义信息，为

1法，利用了能够生成丰富预训练嵌入的强大预训练编各种下游任务提供了一个强大的起点。这自然引发了

7码器。我们重新审视了经典的、无需训练的哈希技术一个问题：我们能否通过直接利用这些预训练的嵌入

2——主成分分析、随机正交投影和阈值二值化——以来重新思考哈希，而不是投入到昂贵、特定场景的哈

4产生一个强有力的哈希基线。我们的方法结合这些技希网络训练中？

9.术与来自最先进的视觉和音频编码器的冻结嵌入，从为了解决这个问题，我们引入了哈希基线，这是

0而在没有任何额外学习或微调的情况下获得具有竞争一种无需训练的方法，重新审视了经典的哈希技术，

2力的检索性能。为了展示这种方法的通用性和有效性，即主成分分析（PCA）、随机正交投影[3]以及通过阈

:我们在标准图像检索基准测试以及新引入的音频哈希值进行二值化。当这些技术应用于预训练编码器的嵌

i基准测试上对其进行评估。1入时，它们的结合始终能产生具有竞争力的，并且有

aIndexTerms—哈希基线，图像检索，音频检索，时是前沿的表现，所有这些都是在无需进一步学习的

二进制码，预训练编码器。情况下实现的。

受音频检索日益重要性的驱动，我们也建立了首

1.介绍个专门针对音频哈希的综合基准。与分类任务相比

——现代预训练音频模型通常能实现非常高的准确

快速准确地使用二进制嵌入进行检索对于大规模率[4]，使得进一步进步变得困难——检索提供了对

搜索至关重要。传统的哈希方法依赖于手工制作的描音频理解更具挑战性和区分度的测试。即使相关性是

述符来生成紧凑的二进制代码，而更近一些的深度哈在类别级别定义的，成功的检索也需要将所有相关的

希技术——无论是监督学习还是无监督学习——通常项目排在不相关的项目之前，这对嵌入空间结构施加

需要从头开始训练模型。这个训练过程通常计算成本了比分类更严格的约束，而分类只需要最顶上的标签

高昂且耗时[1]。此外，这些方法一般缺乏灵活性，因正确即可。我们的基准涵盖了多种音频类型，包括音

为它们必须为每个特定场景重新训练，比如不同的代乐流派、语音情感、人类发声和环境声音，连同哈希