基于模糊隶属值加权的MFCC特征提取算法-深圳大学.PDF

下载文档 降价啦

5
0
约1.26万字
约 6页
2017-10-24 发布于天津
举报
版权申诉
保障服务

基于模糊隶属值加权的MFCC特征提取算法-深圳大学.PDF

1、本文档共6页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于模糊隶属值加权的MFCC特征提取算法-深圳大学

基于模糊隶属值加权的 MFCC 特征提取算法李桂春郑能恒李霞深圳大学信息工程学院，深圳 518060 摘要：在矢量量化说话人识别研究中，特征参数的提取和码本的设计对识别结果有着至关重要的作用。本文分析Mel倒谱系数（MFCC）各阶参数对说话人识别的贡献差异，提出基于模糊隶属值的MFCC加权算法,对参数进行倒谱提升以突出MFCC特征矢量中的说话人个性特征。实验结果表明，经加权后MFCC特征可降低说话人识别错误率。关键词：说话人识别；矢量量化；Mel 倒谱系数；模糊隶属值 1．引言 1 作为一种生物身份认证技术，说话人识别在人机对话系统、多媒体信息处理、以及国防、反恐、安全监控等领域具有广泛的应用前景。与其它模式识别技术一样，决定说话人识别系统性能的两个关键问题是特征提取和建模算法。目前常用的说话人特征可以分为低层次声学特征（包括美尔频率倒谱系数（MFCC ）、线性预测倒谱系数（LPCC ）、基音频率等）和高层次行为特征（如语气语调、遣词造句、习惯等）[1] 。其中，低层次声学特征计算简单，而高层次行为特征的提取往往有赖于高度复杂的大词汇量连续语音识别系统，计算复杂。说话人建模技术则包括矢量量化（VQ ）、混合高斯模型（GMM)、人工神经网络（ANN)及支持矢量机（SVM)等 [1] 。其中GMM、ANN 和SVM 等建模算法需要大量的训练数据，建模算法复杂，而且模型庞大，适合于具有较强计算资源的系统应用。VQ 建模对训练数据量要求低、计算简单，适用于一般嵌入式系统的实时说话人识别应用。VQ 模板匹配是以模板特征与测试特征间的空间距离测度为判别准则，对特征参数各分量幅值的动态范围比较敏感。而MFCC 参数各分量动态范围很大，幅值小的高阶分量对说话人的区分能力易被幅值大的低阶分量所掩蔽。本文针对基于MFCC 和VQ 的说话人识别算法，分析MFCC 各个参数的说话人区分能力，在此基础上提出一种基于模糊隶属值的特征加权算法，有效地提高了说话人识别率。 2 ．MFCC 特征提取 [2] MFCC 倒谱系数提取过程如下图1 所示：资助项目：国家自然科学基金）广东省自然科学基金（9151806001000025 ）联系作者：郑能恒，E-mail ：nhzheng@szu.edu.cn 语音信号倒谱参数ci 预处理 FFT Mel 频率对数能量 DCT 滤波器组图1 Mel 频率倒谱系数的提取 MFCC 的提取过程将语音的产生机制和人耳的听觉感知相结合，所得倒谱参数能准确描述与语音感知直接相关的声学特性。该特征参数在语音识别和说话人识别系统获得了广泛应用。由图 1 可见，MFCC 提取的最后一步是DCT 变换，输出的倒谱参数是一个快速衰减的序列。在基于欧式距离测度的矢量量化说话人识别应用中，高阶参数的绝对距离容易被低阶参数的绝对距离所掩盖。例如：假设低阶特征分量c1 和幅度高阶分量 c10 的模板值分别为c =5 ，c =0.5 ，测试语音的相应特征分量分别为c =1 ，c =0.1 ，2 个分量的相对 1 10 1 10 距离均为20% ，但总距离中前者占比重更大，因此无法充分体现高阶倒谱参数中所隐含的说话人信息。为了解决上述这个问题，Juang 提出了倒谱提升[3]技术，对DCT 输出参数乘以一个提升因子来提高高阶幅值，在一定程度上克服了以上问题。倒谱提升因子由下式给出 li 1