基于MFCC和LSP混合的语音特征参数的技术研究_计算机论文.docVIP

基于MFCC和LSP混合的语音特征参数的技术研究_计算机论文.doc

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于MFCC和LSP混合的语音特征参数的技术研究_计算机论文.doc

基于MFCC和LSP混合的语音特征参数的技术研究_计算机论文 基于MFCC和LSP混合的语音特征参数的技术研究_计算机论文 摘 要 本文提出了一种基于MFCC(Mel Frequency Cepstral Coefficients)和LSP(Line Spectrum Pair)的混合语音特征参数,有效地弥补了单纯使用MFCC的不足,实验中利用加权的欧几里德距离计算特征矢量的失真距离,结果表明新的特征矢量能够很好的表征语音信号的特征信息,能有效降低系统的误识率。 关键字 特征提取 MFCC LSP 欧几里德距离 1 引言 随着教学制度的深入改革,在英语教学中,人们越来越注重“听”“说”这一类的实际交流能力,口语测试环节已经得到越来越多教育专家的关注,我们清醒地认识到,说的能力实际上也包括了对于听和读的能力训练。在现代计算机多媒体技术与网络技术飞速发展的前提下,很多英语教学系统的设置已经越来越科学化人性化,利用计算机辅助设计,评估英语发音者口语发声质量已经成为教学中的重要一环。除了应用于教育背景之下,目前也有一些跨国公司,在招聘员工面试时采用了一种名为PhonePass#8482 SET的机制,就是通过一部电话机,在短短几分钟内,由机器对面试者的外语口语进行一次综合测评。由此可见,口语测评已成为实用外语中一项不可缺少的工作。 口语测试的评分一般分为两种:一种是自动评分,一种为专家评分。目前我们进行的大量研究工作都是针对前一种的,希望尽可能脱离人的主观因素对口语测试者的发音客观评分,评分的客观性表现在给出的分数只由被测者个人的表现决定,不会受到评分专家对于测试者的个人印象,特定环境下单个被测群体的平均水平限制,以及发音的个体性差异等因素影响。这就对我们的计算机辅助设计提出了很高的要求。我们主要用到的技术是语音识别和统计模型的相关理论,通过提取被测者语音信号的特征参数,计算机对其经过一系列数字信号处理,从而在统计模型中对它进行分析测评。因此,提取特征参数的类型就显得尤为重要了,目前应用最为广泛的特征系数是Mel频率倒谱参数(MFCC)。已经有大量实验表明,较之其它类型参数,它能够更好的反映人耳听觉肌理的特征[1]。本文中以非线性的特征参数MFCC为主,结合了语音信号的另一个重要参数——线谱对参数LSP,提出了一种语音特征参数的混合使用方法(M/L),使发音质量判决系统的正确率有所改进。 2 特征提取 特征参量的选择和提取对于实现语音识别系统有关键的意义,理想的特征参数必须用较少的特征维数包含尽可能多的语音特征信息。 2.1 MFCC特征参数 MFCC系数是基于人耳的听觉特性,所谓Mel 频率尺度,它的值大体上对应于实际频率的对数关系。其与实际频率的具体关系如下: (2-1) 其中实际频率f 的单位为Hz 。根据Zwicker 的工作,临界频带宽随着频率的变换而变化,并与Mel 频率的增长一致。在1000 Hz 以下,大致呈线性分步,带宽为100 Hz 左右;在1000 Hz 以上呈对数增长。类似于临界带的划分,可以将语音频率划分为一系列三角形的滤波器序列,即美尔滤波器组。在Mel 滤波器的选择中,滤波器组的选择一般都选择三角形滤波器,可以根据不同的应用选择其他的形状如矩形、正弦形的滤波器组。滤波器的个数一般取24。当信号通过滤波器组时,取每个三角形滤波器频率带宽内所有信号幅度加权和作为每个带通滤波器的输出,然后对所有滤波器输出做对数运算,最后进一步通过离散余弦变换降低特征矢量的维数,得到的参数就是美尔频率倒谱参数(MFCC)[2]。 (2-2) 由于MFCC 更好的反映了人耳的听觉系统的非线性特性,在参数的抗噪声性能和提高系统的识别率方面具有优势,在实际应用中还可以将MFCC 和其差分参数结合起来作为一组特征矢量进行训练,进一步提高系统的抗噪声性能。 2.2 线谱对参数LSP 语音信号的谱特性,除了音调周期外,全部包含在线性预测系数LPC(Linear Predictor Analysis)里面了[3]。LSP即是线性预测系数的一种推演参数,定义为如下多项式的根: (2-3) (2-4) 各个根的频率在单位圆上相互交错排列,分布为:0ω1θ1…ωp/zθp/zπ, ωi和θi分别为P(z)和Q(z)的第i个零点,它们总是成对的出现,且反映信号的频谱特性,因此称为线谱对。总之,线谱对分析是用p个离散频率ωi和θi的分布密度来表示语音信号频谱特性的一种方法。LSP参数能够反映声道幅度谱的特点,在幅度大的地方分布较密,反之较疏,这样就相当于反映出了幅度谱中的共振峰特征,在一定程度上可以起到特征补偿作用。 近年来声码器研究实践表明,LSP是一种具有良好的量化特性和插值特性的参数,因此,在中低速语音编码和语音识别等领域

文档评论(0)

wyj199218 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档