低信噪比条件下的语音端点检测与增强.pdf

低信噪比条件下的语音端点检测与增强.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多

低信噪比条件下的语音端点检测与增强

1引言

语音作为语言的声学表现,是听觉器官对外界声音传播介质机械振动的感知,是人类信息传

递和情感交流的重要载体。目前,语音处理技术要求语音输入在安静的环境下进行,当周围

环境有噪声时,系统性能会急剧下降。然而,语音通信过程不可避免地受到来自周围环境、

传播介质等噪声的影响。语音增强是解决噪声污染的一种有效方法,是语音处理领域的重要

组成部分,广泛应用于语音识别和语音编码等数字语音系统中。由于几乎不可能从带噪语音

信号中提取纯净语音,语音增强主要是改善语音质量,消除背景噪声,提高清晰度和可懂度,

使人乐于接受[1]。针对加性宽带噪声研究,当前国内外语音增强的主要算法有频谱相减法、

自相关法、谐波增强法、自适应噪声对消法、小波变换法、听觉掩蔽法、基于语音生成模型

增强算法以及基于短时谱幅度估计算法,其中广泛使用的主要是谱减法及其变体。谱减法简

单,运算量小,实时性强,增强效果较好;缺点为仅从信噪比角度改善语音质量,另外引入

了音乐噪声[2]。小波分解法和听觉掩蔽法是人们研究的热点,听觉掩蔽法尚处于研究的初

级阶段。人耳能掩蔽语音信号中能量较小的噪声,使得部分噪声不为人们感知[3]。结合人

耳听觉掩蔽效应,笔者提出了改进型的谱减法,对语音增强算法中相关参数进行动态调整,

有效抑制了音乐噪声,提高了语音质量。

语音端点检测将采集的语音信号分为纯噪声段和带噪语音段,判断各语音片段的起止点,是

语音增强算法和语音编码的重要组成部分之一。在语音识别过程中,正确确定语音段的起止

端点,可减少计算量和语音识别误判率。目前,普遍采用的语音端点检测方法,如利用频域

短时能量检测方法,在低信噪比条件下,结果令人难以接受。笔者提出的采用混沌振子模型

有效解决了低信噪比环境下语音端点检测问题。

2预备知识

2.1混沌理论

1963年,美国气象学家E.Lorenz在《大气科学》杂志上发文指出,在气候不能精确重演

与长期天气预报无能为力之间存在一种必然联系,还认为一连串事件可能有一个临界点,在

这一点上,小的变化可产生大的变化。因此,天气预报和气象学的研究开辟了混沌科学。随

后,T.S.Kuhn,李天岩,J.Yorke,R.May等对混沌进行了大量研究与开发。混沌是确

定性系统的内在随机性,其本质是对初始条件的敏感依赖性。20世纪90年代后,混沌科学

广泛应用于信息科学、数学、物理、生物、经济、气象等领域[4]。

物理学中Holmes型Duffing振子

其中,c为阻尼系数;为圆频率ω周期激励(参考信号),其状态方程为

研究发现,当不断改变周期幅度F时,Duffing系统的相图在周期和混沌问进行转换。经分

析可知,系统变化的决定性因素是F/c的大小。当F/c逐渐增大时,系统变化过程为:规

则运动一混沌运动一规则运动。故可推断规则和混沌之间必存在2个临界状态。因此,取F

略小于临界值,将待测信号作为周期激励Fcosωt的微小摄动,利用周期激励和待测信号的

矢量和与临界值的关系,通过相轨迹的变化来检测待测信号。基于Duffing系统的检测方法

有2种:(1)利用Duffing系统的基本混沌特性,把待测信号的频率取为周期策动力的频率,

利用二者幅度和来实现周期运动与混沌运动的转变,缺点为测量频率单一;(2)利用Duffing

系统的间歇混沌特性检测待测信号,优点为测量频率范围较宽。笔者采用后者检测语音端点。

1页

2.2汉语语音的特点

语音主要由清音和浊音组成。浊音在频域有共振峰,能量大部分集中在低频阶段,在时域呈

现周期性;清音没有明显的时域和频域特性。语音是非遍历、非平稳的随机过程,但人的发

音系统的生理结构在一段时间(10~30ms)变化有一定限度,故语音的短时谱具有相对稳定

性。语音短时谱幅度统计是时变的,只有当分析帧长趋于无穷大时,近似认为高斯分布。

2.3人耳的感知特点

语音增强效果取决于人耳的主观感受,人耳对背景噪声有很强的抑制作用。感知机理涉及生

理学、心理学、语音学和声学等领域,有待进一步研究。不过,目前已有些研究结论:人耳

对语音的感知是通过语音信号频谱幅度获得的,对相位不敏感;具有听觉掩蔽效应,即强信

号对弱信号有抑制作用,掩蔽程度是声音强度和频率的二元函数,对频率临近分量的掩蔽程

度比频差较大分量严重得多,高频对低频的掩蔽弱于低频对高频的掩蔽;短时谱共振峰

文档评论(0)

各类考试卷精编 + 关注
官方认证
内容提供者

各类考试卷、真题卷

认证主体社旗县兴中文具店(个体工商户)
IP属地宁夏
统一社会信用代码/组织机构代码
92411327MAD627N96D

1亿VIP精品文档

相关文档