多媒体信号处理-赵勇——音频信息检索技术.pptVIP

多媒体信号处理-赵勇——音频信息检索技术.ppt

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多媒体信号处理-赵勇——音频信息检索技术

多媒体信号处理音频部分 第三讲 音频信息检索技术 申凌 北京大学深圳研究生院 提纲 Introduction: 基于内容的音频检索 音频指纹检索 音频例子检索 语音检索 哼唱检索 研究展望 基于内容的音频检索 互联网上音乐资源越来越多 iTunes 超过千万 谷歌搜索-巨鲸音乐库: 100万 目前主要的搜索方式是文本搜索 播客检索 音乐检索 歌名 歌手 专辑 歌词 基于内容的音频检索 Content-based Music Information Retrieval (CBMIR) 在服务端(音乐数据库) 波形文件(wav, mp3, wma) 特征信息 旋律(乐谱、mid) 在客户端(查询方式) 音频原音 音频例子 哼唱检索 音频信息的三个层次 物理特征 元素:波形 幅度、频谱、短时特征 听觉特征 响度、音高、音色 节奏与弦律 概念层面 类别、语义、情感 音频信息的层次结构 音频检索的指标 查准率 查全率 音频检索的基本步骤 特征提取 相似度计算 索引及快速搜索方法 音频指纹检索(1) 音频指纹(Audio Fingerprint, Audio Hash):表征一段音频的独特特征。如果一段音频来源于同一张CD,无论其编码格式如何,其音频指纹都非常相似。否则,音频指纹不同。 输入:音频片段 希望输出:与输入片段听上去一模一样的音频片段 应用 歌曲识别:Shazam, Gracenote, 酷我歌词 版权监控 音频指纹检索(2) 音频指纹的特性 准确性(Accurary) 可靠性(Reliability) 鲁棒性(Robust) 颗粒度(Granularity) 安全性(Security) 多样性(Versatility) 扩展性(Scalability) 复杂度(Complexity) 音频指纹检索(3) 应用:歌曲识别 全曲识别:酷我歌词 片段识别:Shazam无线歌曲识别服务 音频指纹检索(4) 应用:与音频水印结合的版权保护 音频指纹检索(5) 其他应用: 互联网音频版权监控 音频广播监控 公众场所音频内容监控 音频指纹检索(6) 基本框架 音频指纹检索(6) 前端处理 音频指纹检索(7) 常用的特征提取方法 音频指纹检索(8) 相似性度量 欧几里德距离 汉明距离 指数距离 搜索方法 离线计算距离并索引 用简单的相似度量进行粗匹配 文件索引 音频指纹检索(9) Philips方案{Haitsma, 2002 } 音频指纹检索(10) 指纹图形表示 音频指纹检索(11) 搜索方法:文件索引 音频指纹检索(12) 另一个特征提取的例子:libfoo 音频指纹检索(13) 粗匹配与精确匹配 音频指纹检索(14) 近似最近邻匹配算法(App. Nearest Neighbor) 音频例子检索(1) 输入:音频片段,广泛的音频类别:语音、音乐或其他(如:雨声、鸟叫声、发动机的声音等)。 希望输出:听上去与输入相似的音频片段。 音频例子检索(2) 特征提取:动态直方图{Kashino, 1999} 归一化频带能量 音频例子检索(3) 相似性度量:直方图交集 音频例子检索(4) 直方图无法表示音频帧时序关系,引入多个子窗 直方图相似度在移动p帧后增长的上限为 音频例子检索(5) 树与链表相结合的索引 语音检索(1) 基于关键词检出技术 基于声学层面的算法:如filler模板,two-pass解码机制 检索速度无法满足要求:几秒内检索几十到几百小时的语音数据。 基于大词表连续语音识别技术 查询语音-文字,语音库-文字 例如:google audio,只能检索新闻广播。 语音检索(2) 基于子词基于的语音检索 由于语音识别,音字转换的准确率不够。在对音频数据进行索引时可以采用子词单元的表示形式。 不受词表大小的限制,对语音识别错误有较好的鲁棒性。 语音检索(3) 基于说话人的语音检索 输入:一个人的说话的语音片段 目标:语音库中所有与输入说话人相同的语音 特征:基于倒谱特征的混合高斯模型 音乐检索 音乐数据 表示形式 结构化的符合表示形式:MIDI, MusicXML… 音频形式: wav, mp3, wma, rm 乐谱形式 音乐内容 单声部音乐(monophonic music) 齐奏音乐(homophonic music) 多声部音乐(polyphonic music) 音乐检索 检索方式 哼唱(query-by-humming) 对用户要求低、使用简便,是最主要的音乐检索方式。 节拍拍打 演奏输入(如使用MIDI键盘) 乐谱输入(如直接输入音符序列) 哼唱检索(1) 开拓性的工作,Ghias 1995 哼唱搜索(2) 字符串近似匹配 哼唱搜索(3) 系统工作流程 哼唱搜索(4)

文档评论(0)

153****9595 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档