多媒体信号处理-赵勇——音频信息检索技术.pptVIP

下载本文档

4
0
约5.47千字
约 67页
2018-01-14 发布于江西
举报
版权申诉

多媒体信号处理-赵勇——音频信息检索技术.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

多媒体信号处理-赵勇——音频信息检索技术

多媒体信号处理音频部分第三讲音频信息检索技术申凌北京大学深圳研究生院提纲 Introduction: 基于内容的音频检索音频指纹检索音频例子检索语音检索哼唱检索研究展望基于内容的音频检索互联网上音乐资源越来越多 iTunes 超过千万谷歌搜索-巨鲸音乐库: 100万目前主要的搜索方式是文本搜索播客检索音乐检索歌名歌手专辑歌词基于内容的音频检索 Content-based Music Information Retrieval (CBMIR) 在服务端（音乐数据库）波形文件(wav, mp3, wma) 特征信息旋律(乐谱、mid) 在客户端（查询方式）音频原音音频例子哼唱检索音频信息的三个层次物理特征元素：波形幅度、频谱、短时特征听觉特征响度、音高、音色节奏与弦律概念层面类别、语义、情感音频信息的层次结构音频检索的指标查准率查全率音频检索的基本步骤特征提取相似度计算索引及快速搜索方法音频指纹检索（1）音频指纹(Audio Fingerprint, Audio Hash)：表征一段音频的独特特征。如果一段音频来源于同一张CD，无论其编码格式如何，其音频指纹都非常相似。否则，音频指纹不同。输入：音频片段希望输出：与输入片段听上去一模一样的音频片段应用歌曲识别：Shazam, Gracenote, 酷我歌词版权监控音频指纹检索（2）音频指纹的特性准确性(Accurary) 可靠性(Reliability) 鲁棒性(Robust) 颗粒度(Granularity) 安全性(Security) 多样性(Versatility) 扩展性(Scalability) 复杂度(Complexity) 音频指纹检索（3）应用：歌曲识别全曲识别：酷我歌词片段识别：Shazam无线歌曲识别服务音频指纹检索（4）应用：与音频水印结合的版权保护音频指纹检索（5）其他应用：互联网音频版权监控音频广播监控公众场所音频内容监控音频指纹检索（6）基本框架音频指纹检索（6）前端处理音频指纹检索(7) 常用的特征提取方法音频指纹检索(8) 相似性度量欧几里德距离汉明距离指数距离搜索方法离线计算距离并索引用简单的相似度量进行粗匹配文件索引音频指纹检索(9) Philips方案{Haitsma, 2002 } 音频指纹检索(10) 指纹图形表示音频指纹检索（11）搜索方法：文件索引音频指纹检索(12) 另一个特征提取的例子：libfoo 音频指纹检索(13) 粗匹配与精确匹配音频指纹检索(14) 近似最近邻匹配算法（App. Nearest Neighbor) 音频例子检索（1）输入：音频片段，广泛的音频类别：语音、音乐或其他（如：雨声、鸟叫声、发动机的声音等）。希望输出：听上去与输入相似的音频片段。音频例子检索（2）特征提取：动态直方图{Kashino, 1999} 归一化频带能量音频例子检索（3）相似性度量：直方图交集音频例子检索（4）直方图无法表示音频帧时序关系，引入多个子窗直方图相似度在移动p帧后增长的上限为音频例子检索（5）树与链表相结合的索引语音检索（1）基于关键词检出技术基于声学层面的算法：如filler模板，two-pass解码机制检索速度无法满足要求：几秒内检索几十到几百小时的语音数据。基于大词表连续语音识别技术查询语音-文字，语音库-文字例如：google audio，只能检索新闻广播。语音检索（2）基于子词基于的语音检索由于语音识别，音字转换的准确率不够。在对音频数据进行索引时可以采用子词单元的表示形式。不受词表大小的限制，对语音识别错误有较好的鲁棒性。语音检索（3）基于说话人的语音检索输入：一个人的说话的语音片段目标：语音库中所有与输入说话人相同的语音特征：基于倒谱特征的混合高斯模型音乐检索音乐数据表示形式结构化的符合表示形式：MIDI, MusicXML… 音频形式: wav, mp3, wma, rm 乐谱形式音乐内容单声部音乐(monophonic music) 齐奏音乐(homophonic music) 多声部音乐(polyphonic music) 音乐检索检索方式哼唱(query-by-humming)对用户要求低、使用简便，是最主要的音乐检索方式。节拍拍打演奏输入(如使用MIDI键盘) 乐谱输入(如直接输入音符序列) 哼唱检索(1) 开拓性的工作，Ghias 1995 哼唱搜索(2) 字符串近似匹配哼唱搜索（3）系统工作流程哼唱搜索（4）