基于短时和长时特征的语音情感识别研究.docVIP

下载本文档

5
0
约2.02千字
约 5页
2018-07-29 发布于江苏
举报
版权申诉

基于短时和长时特征的语音情感识别研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于短时和长时特征的语音情感识别研究 1．1 基于短时特征的情感识别 1．1．1 特征提取许多研究者认为，语音的韵律特征是说话者情感状态的一个重要指示。一些对情感语音的研究表明．基音频率、能量和共振峰频率是区分某些情感的有效特征。本文共研究了五组语音短时特征，包括基音频率(Fo)、短时能量、前三个共振峰频率( 到 )、两个Mel频率倒谱系数(MFCC)和五个Mel频率子带能量(到 )以及它们的一阶和二阶导数。短时分析的窗长为20 ms，帧移10 ms，窗函数为汉明窗。基频提取使用短时自相关方法，并通过一个3阶的中值滤波器与内插得到平滑的基频包络。此外，为了避免不同性别的人基频差别太大，对每人的基频都进行了去均值处理。共振峰频率的估计使用文献[5]中提出的方法。为了提取子带能量，通过快速傅立叶变换(FVT)方法估计每帧的短时谱，并将短时谱通过五个在Mel尺度上均匀分布且频率范围在[6O Hz一760O Hz]内的滤波器。计算每个滤波器的对数平均能量。便得到五个子带能量参数MBEl到MBE5。试验表明，使用上述所有特征用于情感识别时存在冗余信息，并不能达到最好的识别效果。冈此必须选择一个最优子集作为特征矢量。通过文献[6]所述的特征选择方法，最后确定所用的每一帧短时特征(STF)矢量为：其中f表示第f帧，五个特征分别为：的二阶导数，的一阶导数，的二阶导数，的二阶导数及的一阶导数。这一特征矢量充分地利用了语音中基频轮廓的变化及其极值分布规律。高频率子带能量特性以及第一共振峰的变化特征。为了避免由于不同语言、不同人的区别以及录音音量的差别所引起的某些数值太大或者太小的情况，所有的参数通过线性缩放，将其范围限制在[0，100]。 1．2 基于长时特征的情感识别 1．2.1 特征提取除了上述参数外，频谱的动态特性也是语音情感的一个重要指示。本文从语音在频率尺度上的动态特性出发研究情感的识别，提出了一个称为美尔能谱动态系数(MESDC)的特征矢量。MESDC的计算过程如图所示：首先通过快速傅立叶变换(FFT)方法估计每一情感短句的长时谱．再令其通过N个均匀分布在Mel频率尺度上的滤波器。计算每一个滤波器输出的对数平均能量(En(i)，i=1，?，N）。之后求En(i)的一阶及二阶差分。后联立得到MESDC的特征矢量：这里N设为12.在输入到分类器之前矢量中的每一参数都要经过了一次线性归一化处理。长时语音特征在说话人识别技术上的应用 1长时时频特征的提取与处理技术 1．1特征提取算法本方法框架上采用Kenny提出的架构，把连续有基频值的浊音段提取出来，在每一个段内，通过能量曲线的谷点，切分出类似音字(phoneme)的单元，然后，在每一个单元内部，把基频曲线，时域能量曲线，分别利用6阶多项式拟合得到6维的参数，与单元的长度一起构成13维的特征．因此，每一个单元提取出一帧特征，这种时频特征的帧数大大减少。但是由于描述的是长时的信息，可以描述帧与帧之间的联系，而短时的MFCC系数差分特征恰恰描述不了这种长时的变化趋势，因此这种长时时频特征的系统与基于MFCC的系统融合在一起会进一步提高整体系统的性能．本方法的不同之处在于，不仅仅拟合基频和时域能量曲线，还拟合了前4个共振峰曲线和前10个谐波能量的曲线。因为，我们认为，每个人的共振峰频率长时变化趋势也可以在一定程度上反应说话人的信息，而且每个谐波能量的曲线变化信息不仅仅反应了被共振峰调制的谐波能量变化趋势，也反应了共振峰的强弱，这恰恰弥补了共振峰频率不能提供的幅度信息。在实验中，我们融合谐波能量曲线特征和共振峰频率曲线特征在一起来提高系统的性能。基于长时性特征的音位属性检测方法许友亮张连海屈丹牛铜基于层级TDNN的特征提取系统由2层TDNN构成，低层的TDNN对短时特征进行分类，其输入特征为帧MFCC参数，输出为音素后验概率；高层TDNN以低层TDNN输出为观测特征，考虑更长时段内的信息，其输入特征为2 +1帧，时长通常可达到200 ms甚至更长，使得高层MLP能够获得音素、字词或词间的信息。另外，由于低层TDNN的输出为0-1之间的概率值，为了使该分布高斯化和离散化，需对其进行非线性变换，包括log运算或PCA降维等。由于高层TDNN的输入考虑到了长时段内的信息，使得MLP在训练过程中“学到”了语音信号间的相关性；由于高层MLP考虑的信息更长，在某种意义上起着“平滑”的作用，相对于低层TDNN的检测结果，高层MLP输出的插入错误明显减少。时间延迟神经网络（TDNN） TDNN的最大特点是在MLP的隐含层引入了时间延迟因子Dj，即当前时刻的输入经过若干时刻的延迟后，对后续的判决产生影响，从而将更长时段的信息引入该分类器中，使模型“学到”长时段内的信息。如图