语音增强技术 .pdfVIP

下载本文档

0
0
约2.89千字
约 3页
2024-11-25 发布于河南
举报
版权申诉

语音增强技术 .pdf

1、本文档共3页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

语音是人类交换信息最方便快捷的一种方式，在高度发达的信息社会的今天，用数字化的方

法进行语音的传送、存储、识别、合成和增强等是整个数字化通信网中最重要、最基本的组

成部分之一。随着人类步入信息社会的步伐的加快，越来越多的地方需要采用语音信号处理

的相关知识，例如数字电话通信、高音质的窄带语音通信系统、语言学习机、声控打字机、

自动翻译机、只能机器人、新一代计算机语言智能终端及许多军事上的应用等，都需要用到

语音信号处理的相关技术。语音信号处理的目的是要得到某些语音特征参数以便搞笑的传输

或存储，或者是通过某种处理运算以达到某种用途的要求。

语音信号是人类传播和感情交流的重要媒介，是听觉器官对声音传媒戒指的机械振动的感知，

也是人类最重要、最有效、最常用、最方便的通信方式。但是在通信过程中语音不可避免的

受到外界环境和传输媒介引入的噪声，通信设备内部的电噪声乃至其他讲话者的干扰，这些

干扰最终都会使得受到的语音信号并非纯净的原始语音信号，而是受到噪声污染的含噪语音

信号。由噪声带来的语音质量的下降会使许多语音处理系统性能的急剧恶化。比如，由于语

音生成模型是低速率语音编码的基础，当受到噪音干扰时，提取的模型参数将很不准确，重

建的御用质量将会急剧恶化。又如，语音识别系统在实验室换将可以取得相当好的效果，然

后在噪声环境中使用时系统将会受到严重的影响。在这样的一些情况下，采用语音增强技术

进行预处理，会将有效的改善系统的性能。

语音增强的目标：

对收听人而言主要是改善语音质量，提高语音的可懂度，减少疲劳；

对语音处理系统（如声码器、手机等）而言是提高系统的识别率和抗干扰能力。

抗噪声的三大类解决方法：

1.语音增强算法

2.寻找稳健的语言特征作为特征作为特征参数

3.基于模型参数自适应的噪声补偿算法

语音增强的前提：

语音增强与语音信号处理理论有关，并涉及到人的听觉感知和语音学。由于噪声的来源众多，

所以要针对不同的噪声作出不同的抗噪技术，因此研究语音增强首先需要对语音特性、人耳

感知特性和噪声特性进行了解。

语音特性：

1.短时平稳性。

语音是时变的，非平稳和非遍历的随机过程。语音发声过程是一个时变过程，但是很多因

素造成了发声系统的时变性，比如声音面积随着时间和距离的改变而改变，气流速度随着声

门处压力的改变而改变等，但是声道形状却具有相对稳定的特性，在一段时间内，通常指

10~30ms，人的声带和声道形状是相对稳定的，可认为其特征是不变的，因而语音的短时谱

具有相对稳定的特性，在对语音信号进行分析处理时可将语音信号分为若干分帧，每一帧的

语音可认为是准稳定的，语音增强则可利用这种短时平稳性。

2.语音信号可以分为清音和浊音

浊音是周期性的，在时域上呈现出明显的周期性，在频域上有共振峰结构，能量大部分集

中在较低频段内，是语音中大幅度高能量的部分。

清音是非周期的，它没有明显的时域和频域特征，类似于白噪声，能量较小，在强噪音中

容易被掩盖，但在较高信噪比时能提供较多的信息。

3.语音信号可以利用统计分析特征描述

由于语音信号的非平稳非遍历的特性，因此长时间的时域统计对语音增强算法意义不大，

语音的短时谱幅度统计特征是时变的，只有当分析帧长趋于无限大时才能近似具有高斯分布，

而在有限帧长时这种高斯模型只是一种近似的描述，可以作为分析的前提在宽带噪声污染的

带噪语音增强中应用。

人耳感知特性

语音感知对语音增强研究有重要的作用，人耳对于语音的感知主要是通过语音信号的频谱分

量幅度获取的，而对各分量相位则不敏感，对频率高低的感受近似与该频率的对数值成正比。

人耳具有一个掩蔽效应，即一个较弱的声音会由于一个较强声音的出现而被感知阈值所掩蔽。

人耳除了可以感受声音的强度、音调、音色和空间方位以外，还可以在两人以上的讲话环境

中分辨出所需要的声音，这种分辨能力是人体内部语音理解机制所具有的一种感知能力，语

音增强的最终效果是人耳的主观感觉，所以在语音增强中可以利用人耳感知特性来减少运算

代价。

噪声特性

由于噪声来自实际的生活环境中，所以可以说噪声的特性变化是无穷的。根据与输入语音的

关系，噪声可以分为加性噪声和非加性噪声两大类。通常而言，对于某些非加性噪声可以通

过一定的变换转换成加性噪声。

而加性噪声又可以被分为周期性噪声、脉冲噪声、宽带噪声、同声道语音干扰、传输噪声等。

1、周期性噪声

主要来源于发动机等周期性运转的机械，电气干扰也能引起周期性噪声。它的特点是频谱上

有许多离散的线谱，实际信号受多种因素的影响，线谱分量通常转变为窄带谱结构，而且通

常这些窄带谱都是时变的

您可能关注的文档

文档评论（0）

159****5101 + 关注: 实名认证

文档贡献者

该用户很懒，什么也没介绍

咨询Ta 进入空间

1亿VIP精品文档

更多 >

语音增强技术 .pdfVIP