- 1、本文档共9页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
语音信号特征参数取提方法
语音信号特征参数提取方法
摘要:在语音技术的发展过程中使用了大量的语音信号特征参数, 好的语音信号特征参数能对语音识别起至关重要的作用。本文对语音信号特征参数提取方法以及国内外研究现状进行了介绍,最后介绍了 Hilbert-Huang 这一新兴理论成果以及在特征提取中的应用。
关键词:语音技术 特征提取 HHT1 引言
语音信号是一种短时平稳信号,即时变的,十分复杂,携带很多有用的信息,这些信息包括语义、个人特征等,其特征参数的准确性和唯一性将直接影响语音识别率的高低,并且这也是语音识别的基础[1]。特征参数应该能够比较准确地表达语音信号的特征具有一定的唯一性。
上世纪40年代,potter等人提出了“visiblespeech”的概念,指出语谱图对语音信号有很强的描述能力,并且试着用语谱信息进行语音识别,这就形成了最早的语音特征,直到现在仍有很多的人用语谱特征来进行语音识别[2]。后来,人们发现利用语音信号的时域特征可以从语音波形中提取某些反映语音特性的参数,比如:幅度、短时帧平均能量、短时帧过零率、短时自相关系数、平均幅度差函数等。这些参数不但能减小模板数目运算量及存储量而且还可以滤除语音信号中无用的冗余信息。语音信号特征参数是分帧提取的, 每帧特征参数一般构成一个矢量, 所以语音信号特征是一个矢量序列。我们将语音信号切成一帧一帧, 每帧大小大约是20-30ms。帧太大就不能得到语音信号随时间变化的特性, 帧太小就不能提取出语音信号的特征, 每帧语音信号中包含数个语音信号的基本周期。有时希望相邻帧之间的变化不是太大, 帧之间就要有重叠, 帧叠往往是帧长的1/2或1/3。帧叠大, 相应的计算量也大[3]。随着语音识别技术的不断发展时域特征参数的种种不足逐渐暴露出来,如这些特征参数缺乏较好稳定性且区分能力不好。于是频域参数开始作为语音信号的特征比如频谱共振峰等。经典的特征提取方法主要有LPCC(线性预测倒谱系数)、MFCC(美尔频率倒谱系数)、HMM(隐马尔科夫模型)、DTW(动态时间规整)等。
2 语音信号特征参数提取方法
对语音信号的大量分析表明,语音信号中包含着持续的准谐波成分和瞬变的迁越成分[4],即语音信号是一种多分量、非线性、非平稳信号。诸如声门、声道以及辐射等影响因素很多,使得语音信号特征参数的准确提取和修正较为困难。这就需要一种精确的时频表示方法[56],来准确表现语音信号的各种特征。传统的语音信号处理都是基于语音信号的两个基本假设[7],即人的发声系统是线性的及语音信号是短时平稳的。这两个假定导出了各种“短时”处理方法,如:短时傅里叶变换、倒谱分析和线性预测分析等。这些“短时”处理方法虽然引入了时频局部化思想,但它们的“短时窗口”大小是固定不变的[8],不能敏感地反映信号的突变,从而忽略了语音信号的时变特征,所以提取出来的参数往往不够精确。
随着小波分析理论[9]的发展,小波分析也逐渐应用于语音信号的分析和处理。虽然小波分析具有可调的时频窗口,但是也存在一定的局限性,主要表现在以下几个方面[9,10]:难以选择的小波基。在小波分析中,可以根据不同的要求构造不同的小波基。但是对某一信号,依据什么原则、用什么判据选择小波基在理论上和实际应用中还是一个难点。固定的基函数。小波基一旦选定就不能再更改,而小波基的选择往往是根据特定的语音信号特征,所以它不具有自适应性。恒定的多分辨率。小波变换的多尺度特性使小波具有“数学显微镜”的特性和多分辨率分析功能。然而,一旦选择了小波基函数和变换尺度,分辨率的大小也就确定了,并不会随信号的改变而改变,因此小波变换可以实现多分辨率分析,但其分辨率是恒定的。
LPCC是基于声道模型,它是目前应用最多的一种倒谱特征提取方法。线性预测系数LPC用线性预测法分析语音信号相邻样值之间的关系,得到一组相关的参数。由此语音特派生的声学特征还有线谱对LSP、PARCOR系数(反射系数)、对数面积比系数等。LPCC为LPC的倒谱参数,它的原理和计算都较为简单,容易实现。算的快速有效使得现在的很多商用化的语音识别系统都是用LPCC作为特征提取方法的。基于人类听觉模型的MFCC,它所采用的mel频率是人耳听到声音的高低和实际频率的非线性映射得到的一个频率尺度。MFCC是继LPCC之后语音识别领域中又一大创新理论,计算过程如图1。相比于LPCC它的识别性能有明显的改进,只是算量大于LPCC,用C语言在算机上做模拟时其运算时间是LPCC的近十倍。由于它是一种基于听觉模型的特征提取方法,在有信道噪声和频谱失真的情况下, 仍具有较高的识别精度,特别是对噪声情况下的识别具有定的鲁棒性。更随着 DSP技术的发展以及它对FFT算的支持,使得MFCC的参数提取速度也很快。结合LPC与MFC的后来提出的一种特征提取的方法P
您可能关注的文档
- 诗歌教学中的一些会体.doc
- 电子信息技术及仪认器识实习报告.doc
- 电子信息技术在医领疗域的应用和发展.docx
- 诗歌鉴赏之意象意学境案.doc
- 诗歌鉴赏常用赏析巧技指导.docx
- 电子信息改变类人生活.doc
- 电子信息文献综述外翻文译.doc
- 诗歌鉴赏思想与观说点课稿.doc
- 电子信息新技术系列座讲报告.doc
- 诗歌鉴赏的主要语类言型.doc
- 洋葱销售SOP流程及关键动作相关知识测试试卷.docx
- 深度解析《GBT 43841-2024内蒙古绒山羊》.pptx
- 电气设备运维及机械部件相关知识测试试卷.docx
- 深度解析《GBT 43843-2024网络协同制造平台数据服务要求》.pptx
- 思维倾向与开放性自我评估试卷.docx
- 危险化学品企业特殊作业安全相关知识考试试卷.docx
- 深度解析《GBT 43844-2024IPv6地址分配和编码规则 接口标识符》.pptx
- 智慧教学整体解决方案(1).doc
- 多重耐药菌感染防治知识及预防措施试卷.docx
- 深度解析《GBT 43845-2024基于扫描氮-空位探针的微弱静磁场成像测量方法》.pptx
文档评论(0)