- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
一种基于能量过零率比的端点检测方法.pdf
III
一种基于能量一过零率比的端点检测方法4
尹洪兵秦斌张凡黄云森
深圳大学现代教育技术与信息中心深圳518060
摘要:参考经典的端点检测算法,本文提出了一种在低信噪比环境下的语音参数一能量一过零率
比(MZR),并提出一种基于该参数的端点检测算法。该算法利用了语音信号和非语音信号MZR参数
的特征差异进行判别。实验表明在信噪比较低的情况下,能准确地检测出语音信号。谊算法具有简单,
准确的特点,比较适用于嵌八式等小型系统中的语音识别引擎。使用电话录音类型样本数据340例检
验,该算法配合Viterbi搜索算法的语音识别准确率达到85%以上。
关键词:端点检测MZR语音识别
1引 言
语音信号的端点检测是指在一段语音信号中检测出语音的起点和终点,在语音信号处理中是一个很重
要的问题。在自动语音识别技术中,正确确定语音段的起始端点,既可以减少后续处理的运算量,也对语
音识别准确率提高也极为重要。由于作者所采用的语音识别算法是Viwrbi搜索算法,且要在嵌入式系统上
实现,所咀准确、简单地进行端点检测显得更为重要。
目前,对语音信号进行端点检测的方法有很多种,下面对几种典型方法做简单的介绍:
1.1基于短时能量和短时过零率的端点检测Ⅲ
这种方法又称双门限法,它考虑到语音开始以后总会出现能量较大的浊音,设一个较高的门限瓦,用
来确定语音的开始,再取一个比瓦稍低的门限王,用来确定真正的起点Ⅳ】及结束点Ⅳ2。最后确定一个过
零率门限值,根据背景噪音的过零率和语音的过零率不同,来区分杂音和清音。这种方法计算简便,在无
噪音或者在信噪比较高的情况下能迅速而准确地检测出语音端点,但在信噪比较低的情况下,检测结果不
能令人满意。
1.2基于频能比的端点检测【2】
这种方法根据元音所具有的特点提出的,元音的特点有:1,持续时间较长:2,能量较大,且主要集
(0~f/2)的短时能量的百分比,称为频能比。利用这一参数先检测出元音部分,再根据过零率寻找元
音前后是否有辅音,来确定语音的真正端点。这种方法在信噪比较低的情况下具有良好的检测性能.但在
计算频能的时候要对信号进行滤波或者傅立叶变换,在时间和空间上都增加了运算复杂度,不适用于小型
系统。
’基金资助:本论文得到深圳市科技局项目(200339)资助。
460 计算机技术与应用进展-2006
1.3基于能量一过零率比的端点检测
结合上述两种端点检测算法优缺点,笔者提出了基于能量一过零率比的端点检测算法。这种方法也是根
据元音的特点以及元音的过零率相对较低提出的。计算每一帧信号的能量和过零率的比值,称为能量一过
零率比。利用这一参数先检测出元音部分,再根据过零率寻找元音前后是否有辅音,来确定语音的真正端
点。其具体算法在文章的后面给予了详细介绍。该算法在信噪比较低的情况下能准确地检测出语音端点,
而且计算量较小,能满足实时性的要求,比较适合于小型系统。
本文第二部分介绍了能量一过零率比的概念,第三部分介绍了基于这一概念的端点检测算法,第四部分
是实验结果及分析,最后第五部分是结论和展望。
2能量一过零率比
无论是从时间长度还是从能量的角度来看,对于每一个音节来说,元音都是及其重要的组成部分,元音
的识别和检测无论是对于人类自己的听音,辨义,还是对于语音信号的机器识别都具有重要意义”J。
元音是由声带振动所产生的准周期性脉冲气流激励声道而产生的,声道形状(主要是由舌的前后位置、
舌位高低及唇的形状等决定)的变化造成了共振峰谐振频率的不同…。元音属于浊音,浊音时短时平均过零
1.具有明显的准周期性;2.持续时间较长;3.能量较大”J;4,过零率较低。
基于元音的以上特点,笔者提出了能量一过零率比(MzR)的概念,每一帧信号的幅度的绝对值之和
与这一帧信号的过零率之间的比值。很明显,这一个比值能准确地将元音从语音信号中区分出来。计算每
一帧信号的能量用公式(1):
M=∑Ix(n)l …,(1)
文档评论(0)