- 1、本文档共2页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
[编辑本段]
语音合成技术
语音合成和语音识别技术是实现人机语音通信,建立一个有听和讲能力的口语系
统所必需的两项关键技术。使电脑具有类似于人一样的说话能力,是当今时代信息产
业的重要竞争市场。和语音识别相比,语音合成的技术相对说来要成熟一些,并已开
始向产业化方向成功迈进,大规模应用指日可待。
语音合成,又称文语转换(TexttoSpeech)技术,能将任意文字信息实时转化
为标准流畅的语音朗读出来,相当于给机器装上了人工嘴巴。它涉及声学、语言学、
数字信号处理、计算机科学等多个学科技术,是中文信息处理领域的一项前沿技术,
解决的主要问题就是如何将文字信息转化为可听的声音信息,也即让机器像人一样开
口说话。我们所说的让“机器像人一样开口说话”与传统的声音回放设备(系统)有着
本质的区别。传统的声音回放设备(系统),如磁带录音机,是通过预先录制声音然
后回放来实现让“机器说话”的。这种方式无论是在内容、存储、传输或者方便性、及
时性等方面都存在很大的限制。而通过计算机语音合成则可以在任何时候将任意文本
转换成具有高自然度的语音,从而真正实现让机器像“人一样开口说话”。
文语转换系统实际上可以看作是一个人工智能系统。为了合成出高质量的语言,
除了依赖于各种规则,包括语义学规则、词汇规则、语音学规则外,还必须对文字的
内容有很好的理解,这也涉及到自然语言理解的问题。下图显示了一个完整的文语转
换系统示意图。文语转换过程是先将文字序列转换成音韵序列,再由系统根据音韵序
列生成语音波形。其中第一步涉及语言学处理,例如分词、字音转换等,以及一整套
有效的韵律控制规则;第二步需要先进的语音合成技术,能按要求实时合成出高质量
的语音流。因此一般说来,文语转换系统都需要一套复杂的文字序列到音素序列的转
换程序,也就是说,文语转换系统不仅要应用数字信号处理技术,而且必须有大量的
语言学知识的支持。
TTS的基本结构
(1)语言学处理
在文语转换系统中起着重要的作用,主要模拟人对自然语言的理解过程——文本
规整、词的切分、语法分析和语义分析,使计算机对输入的文本能完全理解,并给出
后两部分所需要的各种发音提示。
(2)韵律处理
为合成语音规划出音段特征,如音高、音长和音强等,使合成语音能正确表达语
意,听起来更加自然。
(3)声学处理
根据前两部分处理结果的要求输出语音,即合成语音。
[编辑本段]
语音合成技术现状
语音合成技术的研究已有两百多年的历史,但真正具有实用意义的近代语音合成
技术是随着计算机技术和数字信号处理技术的发展而发展起来的,主要是让计算机能
够产生高清晰度、高自然度的连续语音。在语音合成技术的发展过程中,早期的研究
主要是采用参数合成方法,后来随着计算机技术的发展又出现了波形拼接的合成方
法。
参数合成:调整灵活,但音质差
在语音合成技术的发展中,早期的研究主要是采用参数合成方法。值得提及的是
Holmes的并联共振峰合成器(1973)和Klatt的串/并联共振峰合成器(1980),只
要精心调整参数,这两个合成器都能合成出非常自然的语音。最具代表性的文语转换
系统当数美国DEC公司的DECtalk(1987)。但是经过多年的研究与实践表明,由
于准确提取共振峰参数比较困难,虽然利用共振峰合成器可以得到许多逼真的合成语
音,但是整体合成语音的音质难以达到文语转换系统的实用要求。
波形拼接:音质好,自然度高,但受调整算法限制,只能作有限调整
自八十年代末期至今,语言合成技术又有了新的进展,特别是基音同步叠加(P
SOLA)方法的提出(1990),使基于时域波形拼接方法合成的语音的音色和自然度
大大提高。九十年代初,基于PSOLA技术的法语、德语、英语、日语等语种的文语
转换系统都已经研制成功。这些系统的自然度比以前基于LPC方法或共振峰合成器
的文语合成系统的自然度要高,并且基于PSOLA方法的合成器结构简单易于实时实
现,有很大的商用前景。
国内的汉语语音合成研究起步较晚些,但从八十年代初就基本上与国际上研究同
步发展。大致也经历了共振峰合成、LPC合成至应用PSOLA技术的过程。在国家863
计划,国家自然科学
您可能关注的文档
最近下载
- 新概念青少版2BUnit22 I always behave myself课件.pptx
- 院前急救培训手册.docx
- 消防设施操作员中级(四级)维保方向35个抽考项-PDF版.pdf VIP
- 人教版四年级数学《上册全册》全套精品教学课件小学优秀课堂课件.pptx VIP
- 2024年华医网继续教育临床静脉用药质量管理与风险防范答案.docx VIP
- 2023年河北高中学业水平合格性考试英语试卷真题(含答案详解).pdf
- 人教版一年级上册数学 加减混合(课件).pptx
- 海兰天澄 HLT-100COD在线分析仪使用说明书.doc
- 广东省深圳市育才一中学2024届中考物理适应性模拟试题含解析.doc
- 地方政府与城投企业债务风险研究报告——江苏篇(下)-15页.doc VIP
文档评论(0)