低信噪比条件下的语音端点检测与增强.docVIP

下载本文档

3
0
约4.52千字
约 6页
2017-10-15 发布于上海
举报
版权申诉

低信噪比条件下的语音端点检测与增强.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

低信噪比条件下的语音端点检测与增强

低信噪比条件下的语音端点检测与增强1 引言语音作为语言的声学表现，是听觉器官对外界声音传播介质机械振动的感知，是人类信息传递和情感交流的重要载体。目前，语音处理技术要求语音输入在安静的环境下进行，当周围环境有噪声时，系统性能会急剧下降。然而，语音通信过程不可避免地受到来自周围环境、传播介质等噪声的影响。语音增强是解决噪声污染的一种有效方法，是语音处理领域的重要组成部分，广泛应用于语音识别和语音编码等数字语音系统中。由于几乎不可能从带噪语音信号中提取纯净语音，语音增强主要是改善语音质量，消除背景噪声，提高清晰度和可懂度，使人乐于接受［1］。针对加性宽带噪声研究，当前国内外语音增强的主要算法有频谱相减法、自相关法、谐波增强法、自适应噪声对消法、小波变换法、听觉掩蔽法、基于语音生成模型增强算法以及基于短时谱幅度估计算法，其中广泛使用的主要是谱减法及其变体。谱减法简单，运算量小，实时性强，增强效果较好；缺点为仅从信噪比角度改善语音质量，另外引入了音乐噪声［2］。小波分解法和听觉掩蔽法是人们研究的热点，听觉掩蔽法尚处于研究的初级阶段。人耳能掩蔽语音信号中能量较小的噪声，使得部分噪声不为人们感知［3］。结合人耳听觉掩蔽效应，笔者提出了改进型的谱减法，对语音增强算法中相关参数进行动态调整，有效抑制了音乐噪声，提高了语音质量。语音端点检测将采集的语音信号分为纯噪声段和带噪语音段，判断各语音片段的起止点，是语音增强算法和语音编码的重要组成部分之一。在语音识别过程中，正确确定语音段的起止端点，可减少计算量和语音识别误判率。目前，普遍采用的语音端点检测方法，如利用频域短时能量检测方法，在低信噪比条件下，结果令人难以接受。笔者提出的采用混沌振子模型有效解决了低信噪比环境下语音端点检测问题。 2 预备知识 2．1混沌理论 1963年，美国气象学家E．Lorenz在《大气科学》杂志上发文指出，在气候不能精确重演与长期天气预报无能为力之间存在一种必然联系，还认为一连串事件可能有一个临界点，在这一点上，小的变化可产生大的变化。因此，天气预报和气象学的研究开辟了混沌科学。随后，T．S．Kuhn，李天岩，J．Yorke，R．May等对混沌进行了大量研究与开发。混沌是确定性系统的内在随机性，其本质是对初始条件的敏感依赖性。20世纪90年代后，混沌科学广泛应用于信息科学、数学、物理、生物、经济、气象等领域［4］。物理学中Holmes型Duffing振子其中，c为阻尼系数；Fcosωt为圆频率ω周期激励(参考信号)，其状态方程为研究发现，当不断改变周期幅度F时，Duffing系统的相图在周期和混沌问进行转换。经分析可知，系统变化的决定性因素是F/c的大小。当F／c逐渐增大时，系统变化过程为：规则运动一混沌运动一规则运动。故可推断规则和混沌之间必存在2个临界状态。因此，取F略小于临界值，将待测信号作为周期激励Fcosωt的微小摄动，利用周期激励和待测信号的矢量和与临界值的关系，通过相轨迹的变化来检测待测信号。基于Duffing系统的检测方法有2种：(1)利用Duffing系统的基本混沌特性，把待测信号的频率取为周期策动力的频率，利用二者幅度和来实现周期运动与混沌运动的转变，缺点为测量频率单一；(2)利用Duffing系统的间歇混沌特性检测待测信号，优点为测量频率范围较宽。笔者采用后者检测语音端点。 2．2汉语语音的特点语音主要由清音和浊音组成。浊音在频域有共振峰，能量大部分集中在低频阶段，在时域呈现周期性；清音没有明显的时域和频域特性。语音是非遍历、非平稳的随机过程，但人的发音系统的生理结构在一段时间(10～30ms)变化有一定限度，故语音的短时谱具有相对稳定性。语音短时谱幅度统计是时变的，只有当分析帧长趋于无穷大时，近似认为高斯分布。 2．3人耳的感知特点语音增强效果取决于人耳的主观感受，人耳对背景噪声有很强的抑制作用。感知机理涉及生理学、心理学、语音学和声学等领域，有待进一步研究。不过，目前已有些研究结论：人耳对语音的感知是通过语音信号频谱幅度获得的，对相位不敏感；具有听觉掩蔽效应，即强信号对弱信号有抑制作用，掩蔽程度是声音强度和频率的二元函数，对频率临近分量的掩蔽程度比频差较大分量严重得多，高频对低频的掩蔽弱于低频对高频的掩蔽；短时谱共振峰对语音感知很重要，第三个共振峰后，波峰能量迅速减少，故对语音信号进行适度高通滤波影响不大。 2．4噪声特点噪声分为加性和非加性噪声。加性噪声通常分为冲击噪声、周期性噪声和宽带噪声等。有些非加性噪声可通过适当的处理转换成加性噪声，比如，乘性噪声可通过同态变换转换为加性噪声；有些与信号相关的量化噪声可通过伪随机噪声扰动变成信号独立的加性噪声。噪声改变了语音信号原有的声学特征和模型。宽带噪声来源广泛，包括一般随机