合肥工业大学研究生联合培养实践报告要点.docxVIP

合肥工业大学研究生联合培养实践报告要点.docx

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
合肥工业大学研究生联合培养实践报告 随着科学技术和信息化的快速发展, 计算机在人类的生活中扮演着越来越重要的角色。人机交互能力也越来越受到研究者的青睐, 语音合成技术作为人机交互的核心技术之一, 在自然语言处理、 数字信号处理、 随机过程处理等方法的推动下,突破了传统的单纯语音计算算法的研究。 近些年来, 语音合成技术发展迅速,与其相关的语音学、 语言学、自然语音处理、 心理学也有了相应快速的发展,再加上人工智能、数字信号处理、嵌入式开发以及情感计算等也取得了迅猛发展,都为人机语音交互的研究提供了更好的理论基础以及发展方向。 国内外语音合成研究意义 语音是人们获取信息的一种最直接、 最便捷的交流方式, 语音中不仅包含了 许多文字符号信息,还包含了不同说话人在不同情况下传达的多种情感的变化。 语音合成是对输入的文字信息按照语言学规律进行分析, 分段标记后,按照声学 处理规则将文字转换成语音信号输出, 即让机器读出文字信息, 使人们通过“听” 就可以明白信息的内容。 国内外语音合成技术的研究背景 语音合成的研究历史可以追溯到 18 世纪末,法国人 W. Von Kempelen 在 1791 年展示了一个机械式会说话的装置,机器内部采用了与声道结构类似的共振器,通过簧片改变音色,该装置可以产生元音、整个词语和语句。 自 20 世纪出现了电子合成器以来,语音合成的研究达到了飞速发展。 1930 年,贝尔实验室开发了声音编码器, 它是一种用键盘操作的电子语音分析器和合成器。 1939 年,贝尔实验室 H.Dudley 在其基础上进行改进,制作了电子式语音合成器 VODER ,利用共振峰原理制作得到的一个语音合成器,通过电子线路 来实现基于语音产生的源 /滤波器理论。 1960 年,瑞典语言学家 G.Fant 系统阐述了语音产生的理论,推动了语音合成的进步 1982 年,MIT 教授 D.Klatt 设计的串 /并联混合型共振峰合成器,可模拟发声过程中的声道共振,元音和浊辅音 的产生用串联通道来实现, 清浊音的产生用并联通道来实现, 还可以选择和调整声源,模拟不同的嗓音, 它可以发出供用户选择的七中不同音色的语音, 在发音速度上增加到每分钟 350 词时也可以达到清晰、 自然的效果。在这些创新研究的带动下,其他语种的语音合成系统也相继实现, 如日本的 Matsushita 电子公司利 用 DECTalk 系统开发了将日语和汉语转换成口语的系统,德国 Fraunhofer 学会 功效研究所成功开发了 DECTalk 的德语版本。 20 世纪 80 年代末,语音合成技术有了新的突破,基于时域波形修改的语 音合成算法 PSOLA(Pitch Synchronous Overlap Add) 的提出 [3] ,较好地解决了语 音拼接的问题,大大提高了合成语音的自然度。 20 世纪 90 年代中期,随着语音识别技术中统计模型的出现, 研究者提出了可训练的语音合成技术, 该方法是基于统计建模和机器学习的, 根据一定的语音数据进行训练并快速构建语音合成系统。其中,以基于 HMM 的建模与参数生成合成方法为代表。 对于国内的中文语音合成的研究起步较晚, 从 20 世纪 80 年代开始,中科 院声学所、中科院自动化所、 中国科技大学以及社科院语言所都相继开展了这方 面的研究,大致也经历了共振峰合成、 线性预测合成和基于 PSOLA 技术的过程。 如 1993 年中国科学院声学所的 KX-PSOLA 、1994 年中科院声学所开发的 “联想佳音”语音合成系统,引入了基音同步叠加技术 (PSOLA) ,在当年国家 863 评比中获得第一名。 1998 年,中国科技大学 KD-863 汉语文语转换系统采用了对数幅度逼近算法 (LMA) 语音合成器,该方法有效提高了合成语音的音质和自然度。 随着统计模型方法的提出, 很多单位和研究机构也开展了基于 HMM 参数的语音合成方法的研究,如中科大、清华大学、 IBM 中国研究中心以及微软亚洲研究院等。其中,最具代表性的是中科大及科大讯飞公司, 2000 年以来,中科 大讯飞通过采用 LMA 声道模型的技术,能够合成出高自然度的语音 [5][6] 。 3.语音合成技术 3.1 波形拼接合成方法 波形拼接合成方法是一种相对简单的语音合成技术。 波形拼接合成方法的基本原理就是根据输入文本分析得到的信息, 从预先录制和标注好的语音库中挑选合适的单元,进行少量的调整 (也可以不进行调整 ),然后拼接得到最终的合成语音,其中用来进行单元挑选的信息可以是前端分析得到的韵律文本, 也可以是生成的声学参数 (比如基频、时长和谱参数 ),或者两者兼有。简单点说,就是根据待合成的信息, 在语音库中取出相应单元的波形数据, 拼接或者编辑到一

文档评论(0)

153****8736 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档