嵌入式中文ＴＴＳ系统的研究与实现.docVIP

下载本文档

17
0
约5.01千字
约 8页
2018-04-07 发布于北京
举报
版权申诉

嵌入式中文ＴＴＳ系统的研究与实现.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

嵌入式中文ＴＴＳ系统的研究与实现　　摘要：针对现今大规模语料库TTS系统要求有较大的存贮空间的特点，改进设计了一种基于双音素声韵母的嵌入式语音合成系统，并对其语音合成质量的提高采取了多种算法以及措施，使其可以顺利运行在存贮空间和运算速度都受限的嵌入式环境下，并尽可能的保证较高的语音合成质量。　　关键词：嵌入式TTS；语音合成；韵律调整　　中图分类号：TP391文献标识码：A文章编号：1009-3044(2008)16-21345-02 　　Research and Implementation of Embedded TTS System 　　YUAN Jun, ZHANG Si-ming 　　(Department of Computer Science and Technology of Yangen University, quan zhou 362014,china) 　　Abstract: A kind of phonetic compound system has been improved and designed, according to the characteristic of the TTS system, which is on a big scale nowadays and needs larger storage space, and this system is based on the inserting of diphoneme initial finals. What’s more, a lot of arithmetic expression and methods has been used in order to improve the quality of phonetic compound. Therefore, let it run smoothly under the inserting circumstance of restriction both in storage space and arithmetic speed, and try every effort to assure the high quality of phonetic compound. 　　Key words: embedded TTS system; phonetic compound; prosodic adjusting 　　1 引言　　TTS技术发展至今已历经了几十年的时间，有众多的科研机构和企业对此方面做了比较深入的研究以及产品的开发工作。技术也越来越成熟，成绩比较突出的有清华大学语音重点实验室，以及安徽中科大讯飞公司等，他们开发的软件，已经在PC机的很多桌面系统上得到了比较广泛的应用。但这些软件都是基于大规模语料库，其原理是应用大量的语料采集来尽可能的涵盖我们说话发音的全部情况，然后对语料库进行处理，生成大规模的音库，音库中最小的单元一般是句子，一个句子有几个不同的样本，音库大小通常在几百兆到几个G。　　TTS程序运行过程中先对文本进行分析，然后从音库中选择一个合适的样本来拼接生成语句发音。　　这样的处理方式，是以大容量的存贮空间作为代价的，显然不能适应存贮容量和运算速度都受限的嵌入式环境下。嵌入式环境下主要要解决以下问题：（1）存贮容量的限制；（2）运算速度的限制；（3）保证尽可能真实的发音。因此有人提出了基于大规模的语料库进行压缩的方法，主要是以类聚算法为主，原理是对大规模音库的语音单元进行处理，合并算法认为是相同的发音单元。主要代表有：以基频为特征、采用分段变长量化的方法裁剪音库容量[1]、以基频作为特征采用K均值聚类算法裁减音库[2]、基于音节基频包络特征的样本集聚类裁减音库[3]等。这些方式可以大幅度的减少音库的存贮空间，但当压缩比到了一定的程度以后，由于不同的语境的发音毕竟是不同的，用其它语境的同一种音来代替发音势必影响到合成的语音的质量。　　2 以声韵母为合成单元的嵌入式系统　　鉴于大规模语料库所带来的缺点，大幅度的语料裁减必然会带来合成质量的下降，我们舍弃了大规模语料库的主要思想：以尽可能多的样本来保证发音的质量。而使用声韵母为合成基元，并只保留一个样本，这样的处理使我们的系统在存贮空间上有很大的优势，因为汉语中所有声母21个，韵母43个，加上声调的处理，小于200个样本就可以完成音库。但这样随之带来了合成语音质量的问题，我们采用的几个方案来解决这个问题。　　2.1 使用双音素拼接的方法，保证单个音节发音的质量　　一个音节的发音部分分为声母和韵母，但是声母和韵母的过渡部分的发音就是两个部分的协同发音，这一部分的发音