基于困难样本挖掘的音频指纹检索技术研究.pdfVIP

基于困难样本挖掘的音频指纹检索技术研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

哈尔滨工业大学工学硕士学位论文

摘要

音频指纹检索技术是一种基于音频指纹技术的应用,它可以通过比较不同

音频片段的音频指纹,来实现音频内容的检索和匹配。困难样本是与查询音频

片段非常相似的、在检索过程中难以区分的那些样本,困难样本挖掘的目的是

通过挖掘这些难以区分的样本,为模型提供更有效的训练数据,从而提升模型

的训练效果。对困难样本的辨别能力是衡量音频指纹检索技术的关键,现有音

频指纹检索技术提取出的音频指纹以及由音频指纹建立的索引对困难样本的区

分性不足,影响检索的准确性和检索速度。本文就困难样本挖掘的角度,对提

高音频指纹检索系统的检出率以及建立合适的索引方法展开研究,主要内容如

下:

(1)提出了基于加性间隔正例优化损失函数和自适应权重负例优化损失函

数的音频指纹提取方法,并在模型训练过程中采用了一种能集中困难样本的数

据采样方法,将同一个音频文件的不同片段集中到同一个批次数据中,提高困

难样本的比例。提出的方法能有效增强模型对困难样本的辨别能力。实验结果

表明该方法相比基线系统音频指纹的检出率和正确率可以提高12.5%。

(2)提出了基于困难样本挖掘的音频索引方法。为了提高困难样本索引的

可区分性,结合音频指纹的训练过程,用对比学习思想学习PQ索引的聚类中

心,保留了音频指纹正负例信息,提高了困难样本索引的区分度。并在聚类中

心的训练过程中采用基于加性间隔与自适应权重的困难样本挖掘损失函数以及

困难样本集中的数据采样方法,进一步提升索引对困难样本的辨别能力。实验

结果表明与暴力检索准确率相同条件下,基于困难样本挖掘的音频索引方法比

基线系统索引方法需要比较的样本数少,检索速度比基线系统提高14%。

(3)本文基于上述改进算法开发了基于困难样本挖掘的音频指纹检索系统,

其中模型训练和音频特征提取部分使用Python语言实现,指纹提取模型部署和

指纹索引检索部分使用C++语言实现。既便于模型训练,也能提高实际部署检

索系统的检索速度。

关键词:音频指纹检索;对比学习;困难样本挖掘;音频索引;乘积量化

-I-

哈尔滨工业大学工学硕士学位论文

Abstract

Audiofingerprintingtechnologyisanapplicationbasedonaudiofingerprinting

thatenablesretrievalandmatchingofaudiocontentbycomparingtheaudio

fingerprintsofdifferentaudiosegments.Difficultsamplesarethosethatarevery

similartothequeryaudiosegmentandaredifficulttodistinguishduringretrieval.

Thepurposeofdifficultsampleminingistoprovidemoreeffectivetrainingdatafor

themodelbyminingtheseindistinguishablesamples,therebyimprovingthetraining

effectivenessofthemodel.Theabilitytodistinguishdifficultsamplesisakey

measureofaudiofingerprintingretrievaltechnology.However,thediscriminative

abilityoftheexistingaudiofingerprintsandindexesestablishedbyaudiofingerprints

isinsuff

文档评论(0)

拥有快乐的你 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档