语音合成(精品) .pdfVIP

  1. 1、本文档共2页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

[编辑本段]

语音合成技术

语音合成和语音识别技术是实现人机语音通信,建立一个有听和讲能力的口语系

统所必需的两项关键技术。使电脑具有类似于人一样的说话能力,是当今时代信息产

业的重要竞争市场。和语音识别相比,语音合成的技术相对说来要成熟一些,并已开

始向产业化方向成功迈进,大规模应用指日可待。

语音合成,又称文语转换(TexttoSpeech)技术,能将任意文字信息实时转化

为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、

数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,

解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开

口说话。我们所说的让“机器像人一样开口说话”与传统的声音回放设备(系统)有着

本质的区别。传统的声音回放设备(系统),如磁带录音机,是通过预先录制声音然

后回放来实现让“机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及

时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本

转换成具有高自然度的语音,从而真正实现让机器像“人一样开口说话”。

文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量的语言,

除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的

内容有很好的理解,这也涉及到自然语言理解的问题。下图显示了一个完整的文语转

换系统示意图。文语转换过程是先将文字序列转换成音韵序列,再由系统根据音韵序

列生成语音波形。其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套

有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量

的语音流。因此一般说来,文语转换系统都需要一套复杂的文字序列到音素序列的转

换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的

语言学知识的支持。

TTS的基本结构

(1)语言学处理

在文语转换系统中起着重要的作用,主要模拟人对自然语言的理解过程——文本

规整、词的切分、语法分析和语义分析,使计算机对输入的文本能完全理解,并给出

后两部分所需要的各种发音提示。

(2)韵律处理

为合成语音规划出音段特征,如音高、音长和音强等,使合成语音能正确表达语

意,听起来更加自然。

(3)声学处理

根据前两部分处理结果的要求输出语音,即合成语音。

[编辑本段]

语音合成技术现状

语音合成技术的研究已有两百多年的历史,但真正具有实用意义的近代语音合成

技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是让计算机能

够产生高清晰度、高自然度的连续语音。在语音合成技术的发展过程中,早期的研究

主要是采用参数合成方法,后来随着计算机技术的发展又出现了波形拼接的合成方

法。

参数合成:调整灵活,但音质差

在语音合成技术的发展中,早期的研究主要是采用参数合成方法。值得提及的是

Holmes的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980),只

要精心调整参数,这两个合成器都能合成出非常自然的语音。最具代表性的文语转换

系统当数美国DEC公司的DECtalk(1987)。但是经过多年的研究与实践表明,由

于准确提取共振峰参数比较困难,虽然利用共振峰合成器可以得到许多逼真的合成语

音,但是整体合成语音的音质难以达到文语转换系统的实用要求。

波形拼接:音质好,自然度高,但受调整算法限制,只能作有限调整

自八十年代末期至今,语言合成技术又有了新的进展,特别是基音同步叠加(P

SOLA)方法的提出(1990),使基于时域波形拼接方法合成的语音的音色和自然度

大大提高。九十年代初,基于PSOLA技术的法语、德语、英语、日语等语种的文语

转换系统都已经研制成功。这些系统的自然度比以前基于LPC方法或共振峰合成器

的文语合成系统的自然度要高,并且基于PSOLA方法的合成器结构简单易于实时实

现,有很大的商用前景。

国内的汉语语音合成研究起步较晚些,但从八十年代初就基本上与国际上研究同

步发展。大致也经历了共振峰合成、LPC合成至应用PSOLA技术的过程。在国家863

计划,国家自然科学

文档评论(0)

150****0292 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档