基于模型的多数据流语音增强技术研究.docVIP

下载本文档

1
0
约4.48千字
约 5页
2017-07-27 发布于广东
举报
版权申诉

基于模型的多数据流语音增强技术研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于模型的多数据流语音增强技术研究.doc

　　基于模型的多数据流语音增强技术研究第一章绪论 1.1 论文研究背景在人类社会上，无时无刻不在进行信息交换，而信息交换的方式多种多样，有语音，文字，动作，信号灯等，其中语音是最常用，最广泛的方式。因此，人们很早就展开了对语音的研究，发展出了许多研究方向，如语音识别，语音编码以及语音合成，近年来，这些研究被越来越多的应用于人们的生产生活中，对人们的交流起到了很大的促进的作用。然而，由于人们生活环境的复杂性，噪声无处不在，于是语音不可避免的会受到噪声污染，混噪后的语音质量明显降低，并使语音处理的效果变差，在这种情况下，人们提出了语音增强理论。语音增强就是利用带噪语音估计干净语音的过程。目前，已有许多种语音增强算法，其中，谱减法，最小均方误差法（Minimum Mean Square Error, MMSE），维纳滤波法最为经典，也是最早被提出的，但迄今仍有人在研究，并在此之上做了许多改善。语音信号不仅包含内容信息，还往往包含人的情感，心理活动等，此外，噪声复杂，随机性高，种类繁多。因此，这造成了实现语音增强算法的技术难度，现在还不存在一种适用于所有环境的最优增强方法。近年来，为语音建立统计模型，利用模型的先验信息进行增强的方法成为语音增强的一个重要研究方向，相比于传统算法，这类方法增强性能往往较好。这种算法的思想是，在进行语音增强处理之前，先准备训练数据，建立语音的统计模型，而模型中的参数由训练数据估计得到，统计模型估计的越准确，增强效果往往越好，但准确的模型意味着需要更多的训练数据和更大的运算量。高斯混合模型（Gaussian Mixture Model,GMM）简单，运算量适中，效果较好，本文将对基于 GMM 模型的语音增强算法进行研究，并在此基础上提出性能更好的新算法。 ....... 1.2 国内外研究现状如今，人们在语音增强领域的研究已经有了一个多世纪。在二十世纪中期以前，人们主要致力于研究如何改善带噪语音的可懂度。此后，由于计算机技术的迅速发展，数字信号处理方法开始流行，于是人们开始利用数字信号处理的方法对语音信号进行研究，这对语音增强的进步起到了极大的推动作用。语音增强算法大多基于滤波理论。利用浊音具有周期性的特点，人们提出了梳状滤波法[1]。依据自适应噪声抵消[2]的思想，发现了自适应滤波[3]算法。1978 年，Lim 和Oppenheim 提出估计带噪语音的 AR 模型，以迭代的方式滤波的方法，这就是现在人们常说的维纳滤波法[4]。1979 年，Boll 提出谱减法[5]，这种方法的原理是用带噪语音所有频率点减去噪声频谱，得到的结果就被认为是干净语音频谱，这种方法具有思想简单，运算量小的特点。1987 年，Paliuelsson，Kleijn 提出码书算法[7]，将训练干净语音信号和噪声信号得到的线性预测系数引入到最大似然估计中。到了八十年代，随着模式识别的发展，促进了语音识别研究。受到语音识别算法的启发，人们将语音识别中的方法运用在了语音增强算法中。比如，提取语音信号的特征参数，训练语音信号的统计模型，建立干净语音和带噪语音特征参数的空间映射关系来实现语音增强。对于干净语音的频谱幅度分布，Martin 认为可用伽马分布表示[8]，Lotter 和 Vary 使用广义超高斯分布描述[9]，Chen 和 Loizou 则用拉普拉斯分布来表示[10]，后来，Zhao 和 Kleijn 提出了对语音建立隐马尔科夫模型（HiddenMarkov Model, HMM）进行增强的方法[11]。相比于不基于统计模型的传统算法，构建统计模型的算法虽然运算量有所增加，但增强效果却往往相对较好。在这类方法中，语音模型一般是通过多个帧的统计特性建立的。Ephraim，Sameti，Logan，Zhao 和 Kleijn 提出并利用 HMM 对语音进行增强[12,13,14]。基于 HMM 的语音增强方法是一种非常有名的基于统计模型的方法，它解决了经典语音增强算法的一些常见问题，比如，解决了谱减法不能处理快速变化的噪声以及增强后残留音乐噪声的问题。1989 年，Ephraim 首先提出基于 AR-HMM（自回归高斯状态 HMM）的方法[12]。此后，Sameti 在 1994 年[13]，Logan 在 1998 年[14]，Zhao 和 Kleijn 在 2007 年[11]对该方法进行了改进与完善。在 AR-HMM 语音增强的框架下，语音和噪声被当作独立的 AR 过程来进行建模，AR 参数用作语音信号的先验信息。 ........ 第二章语音增强和语音质量评价标准在人们的努力下，研究出了许多种语音增强方法，在这些增强方法中，有一些比较经典的算法，这些算法为语音增强研究奠定了基础。虽然近年来有通过建立语音模型进行语音