- 23
- 0
- 约3.08千字
- 约 3页
- 2019-07-02 发布于江西
- 举报
PAGE
语音和非语音分类的音频特征分析
浦剑涛1 王辉2 姜洪臣1 徐波1
(1 中国科学院 自动化研究所 高技术创新中心,北京 100080;
2 北京机械工业学院 计算机与自动化系,北京 100080)
Analysis of Audio Features for Classification of Speech and Non-speech
PU Jian-tao1, WANG Hui2, JIANG Hong-cheng1, XU Bo1
(1 High Technology Innovation Center, Institute of Automation, Chinese Academy of Sciences, CASIA, Beijing 100080, China; 2 Beijing Institute of Machinery, BIM, Beigjing 100080, China)
引言
语音和非语音分类的问题属于音频场景分类研究的范畴。国内外对音频场景分类进行了广泛深入的研究,针对不同的音频类型,采用了不同的音频特征[1][2][3]。姜洪臣等人[4]综合了前人的工作,采用过零率、短时能量和MFCC等16种音频特征,使用SVM分类器把非静音的音频信号分成语音和非语音,然后又把语音划分为纯语音和非纯语音,把非语音又细分为音乐和环境音。
音频特征选择
音频分类最关键的是要选择有效的特征,文章[4]列出了16种常见的用于音频场景分类的音频特征的提取方法,并从直接观测统计分布规律和分类实验验证两个方面详细分析了这些特征对不同音频分类类型的有效性和鲁棒性。这些特征是:过零率(Zero-Crossing Rate, ZCR)、高过零率帧的比率(High Zero-Crossing Rate Ratio, HZCRR)、短时能量(Short-Time Energy, STE)、短时能量的均方值(Root-Mean-Square, RMS)、低能量帧的比率(Low Short-Time Energy Ratio, LSTER)、静音帧的比率(Silent Frame Ratio, SFR)、频谱差分幅度(Spectrum Flux, SF)、频谱质心(Spectrum Centroid, SC)、频谱宽度(Spectrum Spread, SS)、频谱截止频率(Spectral Rolloff Frequency, SRF)、噪音帧的比率(Noise Frame Ratio, NFR)、子带能量(Sub-Band Engergy, SBE)、线性预测倒谱系数(Linear Predictive Cepstral Coefficient, LPCC)、线谱对(Line Spectrum Pair, LSP)和梅尔倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)等16种音频特征,其中SBE采用8个子带,LPCC和LPC都为10阶,MFCC为12阶,并用这些特征及其中一部分特征的一阶差分构成98维的特征向量。表1列出了特征向量中各维对应的特征:
表1 特征向量组成表
向量维数
特征
向量维数
特征
向量维数
特征
向量维数
特征
1
HZCRR
5-6
ZCR
13-14
SC
27-34
SBE
2
SR
7-8
STE
15-16
SS
35-54
LPCC
3
LSTER
9-10
RMS
17-18
SRF
55-74
LSP
4
NFR
11-12
SF
19-26
BP
75-98
MFCC
特征选择是从一组特征中挑选出一部分最有效的特征以达到降低特征空间维数的目的,比较有效的办法就是基于数据驱动的统计方法,因此本文采用相关性分析的方法来评估特征对分类的有效性,并据此进行特征的选择。图1列出了在语音和非语音分类情况下的各维特征与类别标志(1和0)的相关系数:
图1(a) 语音和非语音分类的特征相关系数(1-49维)
图1(b) 语音和非语音分类的特征相关系数(50-98维)
由上图可以看出,不能一概的否认某一种特征是否有效,正确的做法是,首先对每一种特征从不同的角度演化出更多的长时动态特征和高阶统计特征,然后使用统计分析的方法从众多的特征中选择分类有效性好的特征。本文根据各特征与类别标志的相关系数的绝对值的大小对特征进行排序,然后选择相关系数较大的那部分特征参与分类。我们通过实验找到了最佳的特征组合,并证明了通过相关性分析的方法进行特征选择的正确性。与文章[4]的直接观测和实验证明的方法相比,本文提出的的方法更加科学和有效。
实验结果
实验环境描述和基线系统结果
音频分类数据库基于多普达828PDA手机采集的现实语料,采样频率为8kHz,采
您可能关注的文档
- 艺术创作与作品.ppt
- 艺术学概论 艺术作品.ppt
- 艺术作品的层次和构成.ppt
- 议论文的规范和范文.doc
- 议论文具体段落的写法.ppt
- 异丙酚在急诊操作镇静时的应用.ppt
- 异步电动机正反转控制电路.ppt
- 异地物业管理企业经营.doc
- 异地置业行业策划案.doc
- 异方差性案例分析.doc
- 山西天一大联考2025-2026学年高二上学期期末学情监测语文试题(试卷+解析).docx
- 山西忻州部分学校2025-2026学年高一上学期2月质量检测数学试题(人教B版)(试卷+解析).docx
- 山西运城市2025-2026学年高二第一学期期末调研测试数学试题(试卷+解析).docx
- 陕西省榆林市榆阳区2025-2026学年八年级上学期期末地理试题(试卷+解析).docx
- 陕西西安市碑林区2025-2026学年度第一学期期末八年级生物试题(试卷+解析).docx
- 四川省广元市苍溪县2025-2026年八年级上学期期末道德与法治试题(试卷+解析).docx
- 江苏泰州市姜堰区2025-2026学年七年级上学期1月期末数学试题(试卷+解析).docx
- 江苏省扬州市邗江区2025-2026学年九年级上学期期末考试化学试题(试卷+解析).docx
- 江西上饶市铅山县2025-2026学年第一学期期末考试八年级数学试题(试卷+解析).docx
- 江苏扬州市高邮市2025-2026学年度第一学期期末学业质量监测试题九年级英语(试卷+解析).docx
最近下载
- 北师大版四年级数学下册全册课时练习.pdf VIP
- 南京邮电大学C语言期末试卷及答案.pdf VIP
- 康复治疗技术操作规范.docx VIP
- 2025年急危重症患者CT检查护理管理专家共识解读PPT课件.pptx VIP
- 南京邮电大学《C语言程序设计》2024-2025学年第一学期期末试卷及答案.docx VIP
- 施耐德ATV御程系列ATV630 ATV650编程手册中文.pdf
- 新译林版高中英语选择性必修二 unit 4词汇默写本.docx VIP
- 新译林版高中英语选择性必修二 unit 3词汇默写本.docx VIP
- 新译林版高中英语选择性必修二 unit 2词汇默写本.docx VIP
- 2026年太原城市职业技术学院单招职业适应性测试题库附答案.docx VIP
原创力文档

文档评论(0)