- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于随机共振的基音周期估计方法
摘要:基音周期估计是语音处理和分析的最基本步骤。无论是做语音信号处理,语音压缩,还是语音识别,都要用到基音周期这一重要参数。文章基于随机共振的理论,提出了一种新的估计基音周期的方法。
关键词:基音周期;语音;随机共振
中图分类号:TP334文献标识码:A文章编号:1009-3044(2011)13-3140-02
A Method of Pitch Estimation Based on the Theory of Stochastic Resonance
HE Zhao-xia, LIU Kai
(Yangtze University College of Technology Engineering, Jingzhou 434023, China)
Abstract: Pitch estimation is the basic step in speech processing and analysis.Whether to do speech signal processing, speech compression, or speech recognition, It is necessary to use pitch estimation which is a important parameters. A new method of pitch estimation is proposed based on the theory of stochastic resonance.
Key words: pitch estimation; speech; stochastic resonance
所谓基音周期就是指当发浊音时,气流通过声门时使声带发生振动,产生的准周期激励脉冲串的周期,其倒数称为“基音频率”。[1]在实际中,说话人努力保持基音和声道形状的情况下,基音周期也都不能够保持固定,而是随时间随机的变化的,这一特性称为基音的“抖动”;此外,在一个音中,相邻的几个基音周期的声门波幅度也会有变化,这一特性称为幅度“闪烁”。在语音分析中,为了解释连续的周期声门波的变化会按周期交替出现或者近似随机的出现,基音的“抖动”和“闪烁”现象被推测为由一个潜在的稳定系统或混沌系统引起的非线性行为。[2]
根据基音的这些特点,作者考虑利用非线性随机共振原理估计语音信号的基音周期。实现随机共振需要三个基本条件,即非线性系统、输入信号和噪声,它分利用信号、噪声与非线性系统的协同作用实现弱周期信号频率的提取。进一步的研究发现,利用参数调节可检测大信号的频率[3]。从语音产生的机理出发,我们知道产生语音的生源主要分为三种:周期性、噪声和冲击性生源,而且这三种生源经常混合出现[1],所以可以利用随机共振的原理分析和处理语音信号。
1 基于随机共振的基音周期估计方法
根据人耳的听觉机理及非线性随机共振理论,我们前期已用如下的模型来提取说话人语音的基本特征[4],如图1所示。
通过适当选取非线性随机共振参数,说话人语音信号通过系统后,可转变为具有说话人个体特征的周期性信号,也就是从说话人信号中提取了浊音的信息。由于此时获得的信号严格上将不是准周期的,而且也是有限长的,所以理论上可以考虑用离散傅里叶变换(DFT)来获取它在频域上的特征。图2为基于随机共振的基音周期估计方法的原理图。
图2中,预处理部分包括抗混叠滤波和预加重,抗混叠滤波指滤除高于1/2采样频率的信号成分或噪声,一般用低通滤波器实现。为了提升高频部分,使信号的频谱变得平坦,将滤波后的信号经过预加重数字滤波器H(z)=1-0.9375z-1。非线性随机共振系统是由几个数字滤波器并联而成,构成耳蜗的模型。通过该系统后的信号每帧10个点,帧移5个点,加汉明窗。最后就是进行DFT变换,由于基音频率的分布范围为50―450Hz,所以将采样频率设为900Hz、采样点512个进行基音频率的估计。
2 实验与分析
实验采用自己录制的录音,录音人数为10人,其中5男5女,录音内容为数字和简单的词语。将基于随机共振的基音周期估计方法在MATLAB2008a环境下进行仿真设计。
图3为录音内容为“0”的男生语音波形,图4为最后输出的频域波形图。从图四中,我们可以准确的读出该语音的基音频率260Hz,那么基音周期就为(1/260)s。
图3 男生“0”语音波形图 图4 男生“0”语音频域图
同时,还将男生和女生的基音频率作了对比,如图5为同一男生在不同时刻说话内容为“开门”的频域图,图6为同一女生在不同时刻说话内容为“开门”的频域图。从图中,我们可以看出,同一人在
文档评论(0)