- 37
- 0
- 约1.84万字
- 约 5页
- 2017-06-07 发布于福建
- 举报
1000-9825/2002/13(08)1593-05 ©2002 Journal of Software 软 件 学 报 Vol.13, No.8
基于隐马尔可夫模型的音频自动分类
卢 坚, 陈毅松, 孙正兴, 张福炎
(南京大学 计算机科学与技术系,江苏 南京 210093);
(南京大学 计算机软件新技术国家重点实验室,江苏 南京 210093)
E-mail: jlu@
摘要: 音频的自动分类,尤其是语音和音乐的分类,是提取音频结构和内容语义的重要手段之一, 它在基于内容
的音频检索、视频的检索和摘要以及语音文档检索等领域都有重大的应用价值. 由于隐马尔可夫模型能够很好
地刻画音频信号的时间统计特性, 因此,提出一种基于隐马尔可夫模型的音频分类算法, 用于语音、音乐以及它
们的混合声音的分类.实验结果表明, 隐马尔可夫模型的音频分类性能较好,最优分类精度达到90.28%.
关 键 词: 基于内容的音频分类;隐马尔可夫模型;向量量化;MFCC(mel-frequency cepstral coefficient)
中图法分类号: TP391 文献标识码: A
音频压缩和Internet 媒体流(media streaming)技术的发展,推动着各种基于Internet 的音频应用逐步走向实
用.但是, 由于原始音频数据除了含有采样频率、量化精度、编码方法等有限的注册信息外,本身仅仅是一种非
语义符号表示和非结构化的二进制流,缺乏内容语义的描述和结构化的组织, 因而音频的检索和内容过滤等应
用都受到极大的限制.如何提取音频中的结构化信息和内容语义,使得无序的音频数据变得有序,是基于内容的
音频检索技术能否得以实用的关键所在.
音频自动分类的早期研究工作以文献[1,2]为代表.文献[1]训练一种神经元网络直接将声音类别映射到所
标注的文本.文献[2]使用自组织映射(self-organizing mapping,简称 SOM)聚类算法对具有相似感觉特征的声音
[3]
进行聚类.真正意义上的基于内容的音频自动分类工作是由美国 Muscle Fish 公司Erling Wold 等人完成的 ,
他们详细分析了音频的区别性特征,包括响度(loudness) 、音调(pitch) 、亮度(brightness) 、谐度(harmonicity)等,
并且根据最近邻准则(nearest neighbor,简称 NN)和 Mahalanobis 距离设计音频的分类器,所用的数据集包括笑
声、铃声、电话声等 16 类共409 个样本数据.在文献[3]提供的Muscle Fish 数据集上,文献[4~6]采用不同的特
征和分类器实现音频的分类.其中,文献[4]采用 12 阶的MFCC 系数和能量作为音频的特征表示,根据极大互信
息准则(maximum mutual information,简称MMI)训练决策树量化特征空间为离散的区域,并且根据最近邻准则
对音频作分类,文献[5,6] 分别采用最近特征线(nearest feature line, 简称 NFL) 和支持向量机(support vector
machine,简称SVM)作为分类器.
近年来,音频的自动分类在视频的检索和摘要、基于内容的语音检索等相关领域也日益引起了人们的重
视.在视频的检索和摘要中,人们发现简单的视觉特征,例如颜色、纹理、运动向量等并不能很好地反映视频的
内容和结构语义,而更高级的视觉语义特征的提取则相当困难, 因此,文献[7~9]尝试在视频的检索和摘要中结合
音频(语音、音乐) 、文本(字幕、标题)等信息, 以克服单纯的视觉特征语义表达能力较弱这一缺点.文献[10,11]
收稿日期: 2001-02-13; 修改日期: 2001-05-22
基金项目: 国家自然科学基金资助项目60073030)
作者简介: 卢坚(1974 -),男,浙江东阳人,博士,主要研究领域为音频的分割,分类和检索;陈毅松(1973 -), 男, 四川资阳人,博士,
主要研究领域为图像压缩;孙正兴( 1964-),男,江苏苏州人,博士,副教授,主要研究领域为 CAD/CAM,数字图书馆;张福炎(1939 -),男,
浙
您可能关注的文档
- 03 外部环境课件.ppt
- 3-多毛类——环节动物门(副本).ppt
- 第六章 肾癌病理诊断.pdf
- 第六章 医考路2013年度卫生专业技术资格考试真题—康复医学治疗技术(中级)专业知识 代码:381-1 专家猜题榜纪实.pdf
- 第三章 Vol.14, No.7.pdf
- 第三章 干扰素研究进展_刘运龙.pdf
- 4fundamentalOfImageProcessing教案.ppt
- 第三章 详情页优化细节.pdf
- 第三章 执医综合考试题分享1.pdf
- 第十一篇 维生素讲义.pdf
- 2026年劳务派遣人员招聘(派遣至浙江大学能源工程学院张小斌教授课题组)备考题库有答案详解.docx
- 2025至2030图形丝印设备行业市场占有率及投资前景评估规划报告.docx
- 2026年劳务派遣人员招聘(派遣至浙江大学能源工程学院张小斌教授课题组)备考题库带答案详解.docx
- 复合型园林绿地在气候适应性中的重要作用.docx
- 2026年劳务派遣人员招聘(派遣至浙江大学能源工程学院张小斌教授课题组)备考题库完整答案详解.docx
- 2026年勐海县融媒体中心招聘编外人员备考题库及一套答案详解.docx
- 2026年勐海县融媒体中心招聘编外人员备考题库及一套完整答案详解.docx
- 飞轮储能系统施工中智能化监测与控制技术应用.docx
- 2026年勐海县融媒体中心招聘编外人员备考题库及1套参考答案详解.docx
- 2026年勐海县融媒体中心招聘编外人员备考题库参考答案详解.docx
原创力文档

文档评论(0)