基于隐马尔可夫模型的跨语种语音合成方法分析-analysis of cross-language speech synthesis method based on hidden markov model.docxVIP

下载本文档

6
0
约4.01万字
约 56页
2018-05-20 发布于上海
举报
版权申诉

基于隐马尔可夫模型的跨语种语音合成方法分析-analysis of cross-language speech synthesis method based on hidden markov model.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于隐马尔可夫模型的跨语种语音合成方法分析-analysis of cross-language speech synthesis method based on hidden markov model

modeladaptationIV中国科学技术大学学位论文原创性声明本人声明所呈交的学位论文,是本人在导师指导下进行研究工作所取得的成果。除已特别加以标注和致谢的地方外，论文中不包含任何他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的贡献均已在论文中作了明确的说明。作者签名：签字日期：中国科学技术大学学位论文授权使用声明作为申请学位的条件之一，学位论文著作权拥有者授权中国科学技术大学拥有学位论文的部分使用权，即：学校有权按有关规定向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅，可以将学位论文编入《中国学位论文全文数据库》等有关数据库进行检索，可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。本人提交的电子文档的内容和纸质论文的内容相一致。保密的学位论文在解密后也遵守此规定。□公开□保密（年）作者签名：导师签名：签字日期：签字日期：第1章绪论1.1语音技术的发展计算机的快速发展将人类社会推进至了信息时代，在这个信息资源庞大而丰富的时代里，计算机已经成为人们最为重要而不可或缺的日常应用工具。计算机以其强大的计算和存储能力在工作生活的方方面面帮助人们处理着各式各样繁重庞杂的事务。然而就目前的技术水平而言，计算机的智能化程度仍然相当有限，不可能独立自主地处理完成所面对的问题，必须依靠人来给以指示和命令。计算机需要人们告诉它应该做什么和怎样去做，而要顺利完成这一点就必然要面对人与计算机之间的交流即人机交互问题，人们需要让计算机清楚地理解自己所发出的指令和意图，进而才能让计算机忠实地执行给予的任务，完成自己想做的事情。人机交互（Human-ComputerInteraction）[1]是人和计算机之间交换传递信息指令的媒介通道和对话接口，其易用程度直接关系着整个计算机系统的友善性，对人们使用计算机时的主观感受有着重要的影响。计算机是为人服务的，计算机系统的易学易懂也一直是科学家们所致力追求的目标。有鉴于此，人机交互的发展趋势，也是从人努力适应计算机向着计算机不断地适应人的方向发展着。在目前常见的计算机系统中，鼠标和键盘仍然是最为常用的人机交互媒介，然而从人的主观角度来看，这种机械式的沟通方式并不足够的直接与自然。本着以人为中心的思想，计算机学者们为了使人和计算机之间的互动与交流界面更为友好亲善而开发出了多种操作简单、易学易用的人机交互界面如多模态-多媒体交互，虚拟交互，智能化交互等。在这其中，语音交互类似于人与人之间日常的交流方式，是人们最为熟悉且使用起来自然方便的交互手段，同时也是多种其他高级智能交互方法的基础。人机语音对话技术正是以解决人与计算机之间的语音交互这一难题为终极目标，它覆盖了语音识别、自然语言理解和语音合成等语音研究领域，是目前世界上计算机技术发展潮流中一个难度较大但极具挑战性的高新发展方向。在本世纪70年代以前，受限于相关基础理论的匮乏和计算机的计算存储性能的限制，语音方向的工作大多处于基础的实验室研究和实验阶段，70、80年代以后，语音语言学方面相关理论和模型的不断出现以及计算机性能的飞跃式提高为人机语音技术的研究奠定了坚实的理论和物质基础，语音方向的研究也随之进入了蓬勃发展的近代语音技术阶段，在语音编码、语音识别和语音合成方面都涌现出了大批的优秀成果，并开始应用于实际。作为人机交互的核心技术之一，语音合成技术随着语音技术的飞速提高也得到了快速的发展[2][3]。通过语音合成技术，计算机可以将其想要表达的信息以人类语音的形式播放出来，从而方便了人们的理解感知，也减少了人机之间的互动障碍。当前的语音合成方法主要致力于解决从文本到语音的合成问题，也就是将输入的文本通过一定的技术处理转化为人们可以听懂的语音输出。图1.1是一个典型的TTS系统示意图[4]，可以看到，系统可划分为前端的文本分析和后端的语音合成两个阶段。前端主要是输入的文本转换成语音学表征，包括了对文本在语言、语法、语义等层次上的处理，后端则基于前端的分析结果来合成语音，可通过波形拼接、参数生成等多种方式来实现。本文的研究工作主要集中在后端的算法处理层次上。图1.1TTS系统示意图近年来，语音合成技术发展得愈加成熟，通过现有语音合成技术合成出的语音在音质和自然度方面都有了显著的提高，在一定程度上达到了人们的应用需求，并在信息查询、自动导航、自动应答等领域逐步开始应用于实际。然而，为了达到理想人机交互语言环境的要求，如何进一步提高现有语音合成系统的性能始终是一个被广泛关注的焦点问题。此外，随着国际交往的日益发展和频繁，只用单一语种进行沟通已经不能满足人们的需要，人们希望计算机能帮助他们使用自己并不熟悉的语言进行交流，能够同时使用两种甚至更多种语言进行交流日渐成为一种趋势，这便对现阶段的语音技术提出了更高的要求，有着对跨语种语