- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
浅谈语音增强技术发展
浅谈语音增强技术的发展
摘要:现实生活中,语音不可避免会受到各种干扰,从而使语音质量下降,通信质量受到很大的影响。其中最主要的一种干扰就是背景噪声干扰。为能提高语音质量,就产生了各种解决噪声污染的方法,其中一种有效的方法就是语音增强。它的首要目标就是接收端尽可能从带噪语音信号中提取出纯净的语音信号,改善其质量。
关键词:语音增强 语音信号 语音质量
1、前言
语音信号处理的出现是随着信息技术的迅猛发展而出现的。现在人类逐步步入信息化社会,用现代化的手段研究语音处理技术能更有效地产生、传输、存储、获取和应用语音信息。语音信号处理是以语音语言学和数字信号处理为基础而形成的一门涉及面很广的综合性学科,与心理、生理学、计算机科学、通信与信息科学以及模式识别和人工智能等学科有很密切的联系。
2、语音信号处理的目的、研究内容及应用
语音信号处理是研究用数字信号处理技术来对语音信号进行处理的一门学科。语音信号处理的目的有两个:一是要通过处理得到一些反映语音信号重要特征的语音参数,来高效的传输或储存语音信号信息;二是要通过处理某种运算来达到某种用途的要求,如人工合成出语音、辨识出说话者、识别出讲话的内容等等。
语音信号处理的理论核心研究包括紧密结合的两个方面:一方面是从语音的产生和感知来对其进行研究,该研究与语音、语言学、认知科学、心理、生理学等学科密不可分。另一方面是将语音作为一种信号来进行处理,包括传统的数字信号处理技术以及一些新的应用于语音信号的处理方法和技术。
语音信号处理的应用有语音编码、语音合成、语音识别、说话人识别和语种辨识、语音信号中的情感信息处理以及语音增强等。在本文中着重讨论的是语音增强。语音增强是一种当语音通信系统的输入或输出信号受到噪声干扰时提高系统性能的技术。其主要目的是从带噪语音中提取出尽可能纯净的原始语音。
3、语音增强
3.1 噪声特性及带噪语音模型
语音在通信过程中会受到各种噪声干扰。主要的干扰方式可分为在语音源处的干扰,在语音信号传输过程中的干扰和接听端的干扰。而根据噪声的特性可将噪声按如下方式划分。噪声分为乘性噪声和加性噪声,由于乘性噪声与加性噪声相比更不容易分析,故常将乘性噪声转化为加性噪声进行处理。加性噪声可分为周期性噪声、冲激噪声、宽带噪声和语音干扰。
(1)周期性噪声
周期性噪声有很多离散的窄谱峰,来源于发动机等周期性运转的机械。该噪声引起的问题可通过功率谱发现,并通过滤波和变换技术去除。
(2)冲激噪声
冲激噪声的时域波形中有突然出现的窄脉冲,通常是由放电引起的。可通过将带噪信号的平均值限定一个阀值,信号幅度超过该阀值时就判为冲激噪声并将其滤除。
(3)宽带噪声
宽带噪声和语音信号在时域和频域上完全重叠,通常认为是高斯白噪声。消除它是很困难的。它的来源有热噪声、气流噪声和各种随机噪声等,量化噪声也可视为宽带噪声。
(4)语音干扰
人耳有惊人的在两个以上讲话环境中分辨出所需的声音的能力,该能力来源于人耳的双耳输入效应。当多个语音叠合在一起时,会使双耳信号消失,就产生了语音干扰,无法获取所需的语音信号。
由上可看出,噪声破坏了语音信号原有的声学特征和模型参数,模糊了不同语音之间的差别,使语音质量下降,可懂度降低。强的噪声还会使人产生听觉疲劳。不仅如此,强噪声环境还对讲话人产生影响,使讲话人改变在安静环境或低噪音环境中的发声方式,从而改变了语音的特征参数,对语音识别系统有很大的影响。因此进行语音增强很有必要。
本文研究的是宽带噪声干扰,带噪语音模型为:
y(n)=s(n)+d(n) (3.1.1)
这里s(n)和d(n)分别代表纯净语音和干扰噪声。图3.1为其示意图:
除此之外,还做如下假设:
1.噪声是局部平稳的。局部平稳是指一段带噪语音中的噪声具有和语音段开始前那段噪声相同的统计特性,且在整个语音段中保持不变。即可以根据语音开始前的那段噪声来估计语音中所叠加的噪声统计特性。
2.噪声与语音统计独立或不相关。
3.只有带噪语音可以利用,没有其他参考信号。
3.2 人耳的感知特性
(1)人耳对声波频率高低的感觉与实际频率的高低不呈线性关系,而是近似为对数关系。
(2)人耳对声强的感觉很灵敏,且有很大的动态范围,对频率的分辨能力也受到声强的影响,过强或者太弱的声音都会导致对频率的分辨力降低。
(3)人耳对语音信号的幅度较为敏感,对相位不敏感。
(4)人耳还有掩蔽效应,就是会产生一个声音由于另外一个声音的出现而导致该声音能被感知的阀值提高的现象。
(5)人耳除了可感受声音的强度、音调、音色和空间方位外
文档评论(0)