关于语音转换实现研究.docVIP

下载本文档

10
0
约4.45千字
约 9页
2018-08-21 发布于福建
举报
版权申诉

关于语音转换实现研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

关于语音转换实现研究

关于语音转换实现研究　　摘要：通过了解语音转换的概念与流程使读者对语音转换能够理解其基本工作原理。本文对应项目学习现有语音转换的算法和模型，对其进行优化，从而实现基于快速傅里叶变换的优化高效实时转换，并且对项目成果进行了简单介绍。　　Abstract： This paper makes the readers understand the basic working principle of speech conversion by understanding the concept and process of speech conversion， the corresponding project in this paper learns the algorithms and models of existing speech conversion， and the optimization of it is carried out to implement the optimize real-time conversion of fast Fourier transform. The project results are simply introduced. 　　关键词：语音转换；快速傅里叶变换；源语音；语音库　　Key words： speech conversion；fast Fourier transform；source voice；voice library 　　中图分类号：TN912.3 文献标识码：A 文章编号：1006-4311（2015）29-0207-03 　　1 研究背景　　在现代科学与计算机飞速发展的今天，各种设施随着技术的更新换代也逐渐变得更加人性化起来。人们在与机器的交流过程中，人与人之间使用自然语言一样的人机交流也应运而生。语音识别技术产生于上世纪五十年代，在七十年代中期则已经开始进行大规模研究，时至今日，语音识别技术也逐渐成熟了起来，但距离真正的人机交互还相去甚远。语音转换主要分为非特定人之间的转换和特定人之间的转换，前者较为简单，只要将源语音进行随意变换使得源语音与变换之后的语音不像一个人即可；后者则需要提取特定人语音特征，将源语音转换为特定人语音。　　1.1 研究目的与意义　　本项目的目的主要有三个方面：了解实现语音转换的相关算法，进行选择和优化，实现多目标的语音转化功能；通过编程实现算法，调试和运行以实现语音转换功能；将语音转换系统应用于手机平台，设计界面，制作手机APP供用户使用，并进行推广。语音转换的研究具有深远的意义，在现实生活中有着广泛的用途。具体来说，有如下几个方面：①能够产生含有指定特征的语音。波形拼接技术一直是目前语音合成领域的主流合成技术，在清晰度和自然度上都有很突出的优势，但是其受限于其所对应的语料库，从而有音色单一的缺点。但是如果将过程逆置，则可以得到将音色单一的语音转换为具有指定特征的语音，实现个性化的语音合成，为个性化语音的产生提供了依据。②可以用于说话人的归一化，有利于解决说话人自适应问题。基于生理特征的不同性，同一句话有千变万化的发音，各类参数的不同可以说是毫无规律，但是对于确定的说话人，这些都是有规律可循的。将具体的语义付诸到前端预处理上，首先就要将说话人的语音进行归一化处理，得到消除个性特征的声音信号进行识别。③在医学领域的应用。能够帮助声道受损的人去噪合成符合其原有语音特征的声音，恢复其身体机能与自信。声源去噪技术能够最大程度的保持原有语音的特征，并且提高患者语音的清晰度与可懂度。　　除此之外，还可以应用于娱乐领域进行特定声音变换、通信保密和伪装中等等。　　1.2 国内外发展现状　　中科院自动化所、声学所、微软亚洲研究所以及清华大学等单位针对不同的特征参数对语音转换效果的影响也展开了一定的研究[1]。初敏[1]等人采用TD-POSLA的方法进行男女语音转换的研究。双志伟[1]提出了基于汉语因素的码本映射算法。吕声[1]利用一个基于高斯混合模型的转换函数，通过转换线性预测模型的线谱频率参数，实现谱包络的转换，另外还提出了一种基于音素的混合高斯（GMM）转换方法。黄德智[1]提出了对浊音和清音分别建模的方法来提高重建语音的清晰度和可懂性。康永国[1]提出了混合高斯模型和码本映射结合的语音转换算法。　　由于国外对语音转换的研究早于国内很多年，所以其取得的成就也较多。1998年，Stylianous[1]首次提出用高斯混合模型来进行谱包络的转换方法，并提出了用谐波加噪声的模型，进行时间长度的基频转换。实验证明GMM方法在数据比较多的情况下比基于矢量量化的方法更有效。Duxans和Sundermann[1]