- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
音频哼唱检索技术的设计与实现
ELECTRONICS WORLD 技术 交流
・
音频哼唱检索技术的设计与实现
天津广播电视台 石家瑞
【摘要】
通过文字输入音频属性信息进行音频检索无法满足通过音乐的旋律进行检索的需求,因此基于内容的音频检
索应运而生。研究、设计并实现一套基于内容的音频哼唱检索技术,对音频进行分割处理,基音提取,旋律编码和旋
律匹配,完成音频搜索。在实验中,通过对输入语音的处理、匹配,以85.5%的相似度成功检索出目标音频,为今后音
频哼唱检索技术的实际应用提供依据和保证。
【关键词】
音频;哼唱;检索技术
0 引言 2 哼唱检索方法
随着数字化和网络化的快速发展,音频的检索已经 2.1 音频切割
随着大众的需要从一维扩展到多维。传统的音频检索需 音频分割的方法是:在得到输入信号的对数能量曲
要用户输入音频的属性信息,包括名称、演唱者、年代 线之后,对其进行平滑处理,再由曲线的极值求出有声
等文本信息进行检索,然而用户熟悉某些歌曲的旋律和 区的能量阈值,接着就能根据音符的对应关系将输入信
风格,但是并不知道名称和主唱,运用传统的属性信息 号分割成小片段,图2-1所示。
进行检索无法满足他们的需求。因此,通过音频内容进 这种分割方法要求用户在每个音符直接按留出一定的空
行检索的方法应运而生。哼唱检索作为基于内容的音频 隙,但这种要求不一定都会满足,因为用户发音不准或者哼
检索的一种,需要用户哼唱某一段音乐,这段音乐作为 唱的很连贯,各个音符之间没有停顿,就无法在能量上来区
一种非语义符号表示且非结构化的二进制码流输入到计 别各个音符,这都会导致这种方法的失效或者不理想。但是
算机中,通过搜索引擎去寻找一些歌曲,并将歌曲中包 人们通过实验发现,音频的倒谱的峰值随着时间也有起伏,
含用户所哼唱的旋律和风格的歌曲反馈给用户。 而且能够反映出静音和非静音的边界,如图2-2所示,所以
本文详细研究并介绍了哼唱检索的流程和所用方 在进行音频分割时一般综合考虑能量曲线和倒谱峰值曲线,
[2]
法,并通过程序演示,以实验形式完成了哼唱检索过程。 这样能够得到最好的分割效果 ,如图2-3所示。
1 哼唱检索流程
哼唱检索的流程是:用户通过一个麦克风哼唱一段
音乐,这段音乐以音频数据的方式被采集到了计算机里 图2-1 能量曲线以及音符分割结果
面,被分割成一个个片段,这些片段又分别对应了一个
个的音符[1]。之后就能找出这些片段的基因频率,获得
哼唱片段的旋律信息,将哼唱的旋律信息与音乐库中音
乐的旋律信息进行匹配比较,并将相关度最高的一首或
几首乐曲作为检索结果返回给用户,流程如图1-1所示: 图2-2 倒谱峰值曲线
图2-3 能量曲线和倒谱曲线综合考虑的结果
2.2 基音提取
音符分割完成以后,就要进行基音的提取了。人
类声音的频率一般大于60Hz,而小于1000Hz,所以可以
利用哼唱信号良好的周期性特性,采用
文档评论(0)