基于隐马尔可夫模型音频自动分类.pdfVIP

下载本文档

11
0
约2.03万字
约 6页
2017-08-30 发布于安徽
举报
版权申诉

基于隐马尔可夫模型音频自动分类.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

1000-9825/2002/13(08)1593-05 ©2002 Journal of Software 软件学报 Vol.13, No.8 基于隐马尔可夫模型的音频自动分类· 卢坚, 陈毅松, 孙正兴, 张福炎 (南京大学计算机科学与技术系,江苏南京 210093); (南京大学计算机软件新技术国家重点实验室,江苏南京 210093) E-mail: jlu@ 摘要: 音频的自动分类, 尤其是语音和音乐的分类,是提取音频结构和内容语义的重要手段之一, 它在基于内容的音频检索、视频的检索和摘要以及语音文档检索等领域都有重大的应用价值. 由于隐马尔可夫模型能够很好地刻画音频信号的时间统计特性, 因此,提出一种基于隐马尔可夫模型的音频分类算法, 用于语音、音乐以及它们的混合声音的分类.实验结果表明,隐马尔可夫模型的音频分类性能较好,最优分类精度达到90.28%. 关键词: 基于内容的音频分类;隐马尔可夫模型;向量量化;MFCC(mel-frequency cepstral coefficient) 中图法分类号: TP391 文献标识码: A 音频压缩和Internet 媒体流(media streaming)技术的发展,推动着各种基于Internet 的音频应用逐步走向实用.但是, 由于原始音频数据除了含有采样频率、量化精度、编码方法等有限的注册信息外,本身仅仅是一种非语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织, 因而音频的检索和内容过滤等应用都受到极大的限制.如何提取音频中的结构化信息和内容语义,使得无序的音频数据变得有序,是基于内容的音频检索技术能否得以实用的关键所在. 音频自动分类的早期研究工作以文献[1,2]为代表.文献[1]训练一种神经元网络直接将声音类别映射到所标注的文本.文献[2]使用自组织映射(self-organizing mapping,简称 SOM)聚类算法对具有相似感觉特征的声音 [3] 进行聚类.真正意义上的基于内容的音频自动分类工作是由美国 Muscle Fish 公司 Erling Wold 等人完成的 , 他们详细分析了音频的区别性特征,包括响度(loudness)、音调(pitch) 、亮度(brightness)、谐度(harmonicity)等, 并且根据最近邻准则(nearest neighbor, 简称 NN)和 Mahalanobis 距离设计音频的分类器,所用的数据集包括笑声、铃声、电话声等 16 类共409 个样本数据.在文献[3]提供的Muscle Fish 数据集上,文献[4~6]采用不同的特征和分类器实现音频的分类.其中,文献[4]采用 12 阶的MFCC 系数和能量作为音频的特征表示,根据极大互信息准则(maximum mutual information, 简称MMI)训练决策树量化特征空间为离散的区域,并且根据最近邻准则对音频作分类,文献[5,6]分别采用最近特征线(nearest feature line, 简称 NFL) 和支持向量机(support vector machine,简称SVM)作为分类器. 近年来,音频的自动分类在视频的检索和摘要、基于内容的语音检索等相关领域也日益引起了人们的重视.在视频的检索和摘要中,人们发现简单的视觉特征,例如颜色、纹理、运动向量等并不能很好地反映视频的内容和结构语义,而更高级的视觉语义特征的提取则相当困难,因此,文献[7~9]尝试在视频的检索和摘要中结合音频(语音、音乐)、文本(字幕、标题)等信息, 以克服单纯的视觉特征语义表达能力较弱这一缺点.文献[10, 11] · 收稿日期: 2001-02- 13; 修改日期: 2001-05-22 基金项目: 国家自然科学基金资助项目60073030) 作者简介: 卢坚(1974－),男,浙江东阳人,博士,主要研究领域为音频的分割,分类和检索;陈毅松(1973 －),男,四川资阳人,博士, 主要研究领域为图像压缩;孙正兴(1964 －),男,江苏苏州人,博士,副教授,主要研究领域为 CAD/CAM,数字图书馆;张福炎(1939－),男, 浙江绍兴人,教授,博士生