语音和非语音分类的音频特征分析 浦剑涛.docVIP

  • 23
  • 0
  • 约3.08千字
  • 约 3页
  • 2019-07-02 发布于江西
  • 举报

语音和非语音分类的音频特征分析 浦剑涛.doc

PAGE 语音和非语音分类的音频特征分析 浦剑涛1 王辉2 姜洪臣1 徐波1 (1 中国科学院 自动化研究所 高技术创新中心,北京 100080; 2 北京机械工业学院 计算机与自动化系,北京 100080) Analysis of Audio Features for Classification of Speech and Non-speech PU Jian-tao1, WANG Hui2, JIANG Hong-cheng1, XU Bo1 (1 High Technology Innovation Center, Institute of Automation, Chinese Academy of Sciences, CASIA, Beijing 100080, China; 2 Beijing Institute of Machinery, BIM, Beigjing 100080, China) 引言 语音和非语音分类的问题属于音频场景分类研究的范畴。国内外对音频场景分类进行了广泛深入的研究,针对不同的音频类型,采用了不同的音频特征[1][2][3]。姜洪臣等人[4]综合了前人的工作,采用过零率、短时能量和MFCC等16种音频特征,使用SVM分类器把非静音的音频信号分成语音和非语音,然后又把语音划分为纯语音和非纯语音,把非语音又细分为音乐和环境音。 音频特征选择 音频分类最关键的是要选择有效的特征,文章[4]列出了16种常见的用于音频场景分类的音频特征的提取方法,并从直接观测统计分布规律和分类实验验证两个方面详细分析了这些特征对不同音频分类类型的有效性和鲁棒性。这些特征是:过零率(Zero-Crossing Rate, ZCR)、高过零率帧的比率(High Zero-Crossing Rate Ratio, HZCRR)、短时能量(Short-Time Energy, STE)、短时能量的均方值(Root-Mean-Square, RMS)、低能量帧的比率(Low Short-Time Energy Ratio, LSTER)、静音帧的比率(Silent Frame Ratio, SFR)、频谱差分幅度(Spectrum Flux, SF)、频谱质心(Spectrum Centroid, SC)、频谱宽度(Spectrum Spread, SS)、频谱截止频率(Spectral Rolloff Frequency, SRF)、噪音帧的比率(Noise Frame Ratio, NFR)、子带能量(Sub-Band Engergy, SBE)、线性预测倒谱系数(Linear Predictive Cepstral Coefficient, LPCC)、线谱对(Line Spectrum Pair, LSP)和梅尔倒谱系数(Mel-Frequency Cepstral Coefficient, MFCC)等16种音频特征,其中SBE采用8个子带,LPCC和LPC都为10阶,MFCC为12阶,并用这些特征及其中一部分特征的一阶差分构成98维的特征向量。表1列出了特征向量中各维对应的特征: 表1 特征向量组成表 向量维数 特征 向量维数 特征 向量维数 特征 向量维数 特征 1 HZCRR 5-6 ZCR 13-14 SC 27-34 SBE 2 SR 7-8 STE 15-16 SS 35-54 LPCC 3 LSTER 9-10 RMS 17-18 SRF 55-74 LSP 4 NFR 11-12 SF 19-26 BP 75-98 MFCC 特征选择是从一组特征中挑选出一部分最有效的特征以达到降低特征空间维数的目的,比较有效的办法就是基于数据驱动的统计方法,因此本文采用相关性分析的方法来评估特征对分类的有效性,并据此进行特征的选择。图1列出了在语音和非语音分类情况下的各维特征与类别标志(1和0)的相关系数: 图1(a) 语音和非语音分类的特征相关系数(1-49维) 图1(b) 语音和非语音分类的特征相关系数(50-98维) 由上图可以看出,不能一概的否认某一种特征是否有效,正确的做法是,首先对每一种特征从不同的角度演化出更多的长时动态特征和高阶统计特征,然后使用统计分析的方法从众多的特征中选择分类有效性好的特征。本文根据各特征与类别标志的相关系数的绝对值的大小对特征进行排序,然后选择相关系数较大的那部分特征参与分类。我们通过实验找到了最佳的特征组合,并证明了通过相关性分析的方法进行特征选择的正确性。与文章[4]的直接观测和实验证明的方法相比,本文提出的的方法更加科学和有效。 实验结果 实验环境描述和基线系统结果 音频分类数据库基于多普达828PDA手机采集的现实语料,采样频率为8kHz,采

文档评论(0)

1亿VIP精品文档

相关文档