合肥工业大学研究生联合培养实践报告要点.docxVIP

下载本文档

4
0
约1.53万字
约 17页
2021-02-04 发布于山东
举报
版权申诉

合肥工业大学研究生联合培养实践报告要点.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

合肥工业大学研究生联合培养实践报告随着科学技术和信息化的快速发展，计算机在人类的生活中扮演着越来越重要的角色。人机交互能力也越来越受到研究者的青睐，语音合成技术作为人机交互的核心技术之一，在自然语言处理、数字信号处理、随机过程处理等方法的推动下，突破了传统的单纯语音计算算法的研究。近些年来，语音合成技术发展迅速，与其相关的语音学、语言学、自然语音处理、心理学也有了相应快速的发展，再加上人工智能、数字信号处理、嵌入式开发以及情感计算等也取得了迅猛发展，都为人机语音交互的研究提供了更好的理论基础以及发展方向。国内外语音合成研究意义语音是人们获取信息的一种最直接、最便捷的交流方式，语音中不仅包含了许多文字符号信息，还包含了不同说话人在不同情况下传达的多种情感的变化。语音合成是对输入的文字信息按照语言学规律进行分析，分段标记后，按照声学处理规则将文字转换成语音信号输出，即让机器读出文字信息，使人们通过“听” 就可以明白信息的内容。国内外语音合成技术的研究背景语音合成的研究历史可以追溯到 18 世纪末，法国人 W. Von Kempelen 在 1791 年展示了一个机械式会说话的装置，机器内部采用了与声道结构类似的共振器，通过簧片改变音色，该装置可以产生元音、整个词语和语句。自 20 世纪出现了电子合成器以来，语音合成的研究达到了飞速发展。 1930 年，贝尔实验室开发了声音编码器，它是一种用键盘操作的电子语音分析器和合成器。 1939 年，贝尔实验室 H．Dudley 在其基础上进行改进，制作了电子式语音合成器 VODER ，利用共振峰原理制作得到的一个语音合成器，通过电子线路来实现基于语音产生的源 /滤波器理论。 1960 年，瑞典语言学家 G.Fant 系统阐述了语音产生的理论，推动了语音合成的进步 1982 年，MIT 教授 D．Klatt 设计的串 /并联混合型共振峰合成器，可模拟发声过程中的声道共振，元音和浊辅音的产生用串联通道来实现，清浊音的产生用并联通道来实现，还可以选择和调整声源，模拟不同的嗓音，它可以发出供用户选择的七中不同音色的语音，在发音速度上增加到每分钟 350 词时也可以达到清晰、自然的效果。在这些创新研究的带动下，其他语种的语音合成系统也相继实现，如日本的 Matsushita 电子公司利用 DECTalk 系统开发了将日语和汉语转换成口语的系统，德国 Fraunhofer 学会功效研究所成功开发了 DECTalk 的德语版本。 20 世纪 80 年代末，语音合成技术有了新的突破，基于时域波形修改的语音合成算法 PSOLA(Pitch Synchronous Overlap Add) 的提出 [3] ，较好地解决了语音拼接的问题，大大提高了合成语音的自然度。 20 世纪 90 年代中期，随着语音识别技术中统计模型的出现，研究者提出了可训练的语音合成技术，该方法是基于统计建模和机器学习的，根据一定的语音数据进行训练并快速构建语音合成系统。其中，以基于 HMM 的建模与参数生成合成方法为代表。对于国内的中文语音合成的研究起步较晚，从 20 世纪 80 年代开始，中科院声学所、中科院自动化所、中国科技大学以及社科院语言所都相继开展了这方面的研究，大致也经历了共振峰合成、线性预测合成和基于 PSOLA 技术的过程。如 1993 年中国科学院声学所的 KX-PSOLA 、1994 年中科院声学所开发的 “联想佳音”语音合成系统，引入了基音同步叠加技术 (PSOLA) ，在当年国家 863 评比中获得第一名。 1998 年，中国科技大学 KD-863 汉语文语转换系统采用了对数幅度逼近算法 (LMA) 语音合成器，该方法有效提高了合成语音的音质和自然度。随着统计模型方法的提出，很多单位和研究机构也开展了基于 HMM 参数的语音合成方法的研究，如中科大、清华大学、 IBM 中国研究中心以及微软亚洲研究院等。其中，最具代表性的是中科大及科大讯飞公司， 2000 年以来，中科大讯飞通过采用 LMA 声道模型的技术，能够合成出高自然度的语音 [5][6] 。 3.语音合成技术 3.1 波形拼接合成方法波形拼接合成方法是一种相对简单的语音合成技术。波形拼接合成方法的基本原理就是根据输入文本分析得到的信息，从预先录制和标注好的语音库中挑选合适的单元，进行少量的调整 (也可以不进行调整 )，然后拼接得到最终的合成语音，其中用来进行单元挑选的信息可以是前端分析得到的韵律文本，也可以是生成的声学参数 (比如基频、时长和谱参数 )，或者两者兼有。简单点说，就是根据待合成的信息，在语音库中取出相应单元的波形数据，拼接或者编辑到一