多语种语音合成平台的设计与实现研究.pdfVIP

多语种语音合成平台的设计与实现研究.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
多语种语音合成平台的设计与实现 徐俊1蔡莲红1吴志勇1,2 ‘(清华犬学计算机系,北京,100084) 2(香港城市大学计算机科学系,香港) 摘要:随着各国交流的不断深八,多语种以覆混语种语音合成已经成为信息)匈通和人机交互 中越来越重要的部分。针对多语种和混语种语音合成的关键问题和现状,本文设计并实现了一 个通用并且扩展性裉好的多语种语音舍成研究平台THMTTS,并基于其灵活的系统框架提出 了一个混语种语音合成的基本流程,对中英日韩四种语言的混语种语音合成进行了语种检测和 语音舍成的研究。为进一步提高混语种语音舍成技术水平提供了可能。 关键词:语音合成;多语种;混语种;平台;语种检测 1.引言 语音合成足通过机器将文字转化为声音的技术,以此提供声文并茂的信息表达方式。 它通常也被称为文语转换(TTS,text—to—speech)。目前,语音合成技术在国际上已经得到 了普遍发展,各种语言甚至方言都有其自身的语音合成系统。为了让系统具有更高的重用 性、通用性和扩展性,多语种语音合成便成为了国内外研究的热点。 国外对多语种语音合成的研究较早,并且已经设计并实现了不少优秀的多语种语音合 成系统。其中比较知名的有贝尔实验室设计并实现的多语种语音合成系统,其流水化的模 块结构非常适合做组件测试和评估”l;还有英国爱丁堡大学的Festival系统,它提出’一种基 于相交关系机制的数据结构来取代传统的多级数据结构“j,可以方便地将线性、树型等多 种数据结构用统~的形式来表示。然而这些多语神语音合成系统都还缺乏一个图形化的实 验平台以便研究和观察中间数据:其次,英语或其他西欧语言与中文相比在文本分析方面 有很大差别,其框架不能直接应用到汉语语音合成上来;然后,大多数多语种语音合成缺 乏考虑混台语种输入的问题。国内的多语种语音合成系统还比较少,大部分仅仅考虑单 语种或者双语种(即中文和英文)的合成。为此,我们设计并实现了THMTTS多语种语音合 成研究平台,以满足多语种语音合成的研究和应用需求。 2.多语种语音合成平台THMTTS 2.1系统结构 设计THMTTS的目标在于建立‘个可以对多语种语音合成进行研究和分析的平台。 通过该平台,一方面可以完成单~语种语音合成,也可以完成多语种或者混语种语音合成 8012)、北京市科委项目(H037330010720 资助项目:国家自然科学基仓(604l educn 联系作者:棣俊,Email:xujun00@mailstsinghua 496 第二部分第一届全国人机交互学术会议 另一方面,可以替换语音合成过程中某一个模块的算法或者算法的具体实现,并能够在平 台上观测模块的输出。根据这个设计目标,THMTTS应当具有下面的功能: (1)完整的语音合成框架。作为语音台成平台,首先必须要能够完成单语种语音合成 的任务,并在此基础上提供多语种和混语种的支持。这个功能一方面需要提供语音合成底 层的数据支持,另一方面要提供语音合成过程中与算法无关的工具,比如文件读写,音频 播放设备的控制等。 (2)灵活的模块构成。为了达到研究的目的,系统应该能够支持加载和拆卸语音合成 过程中的不同算法模块,或者直接使用系统集成的算法模块,以此来进行语音合成中某个 过程的算法的研究和分析。 (3)直观的数据显示。为了能够观测和比较算法的效果和模块的输出,一方面需要提 供’个图形化的用户界面并支持多种不同数据类犁的显示方式,另一方面也必须制定一套 较为灵活并且可扩展的数据接口,这样研究人员只要按照接口规范来实现,就可以将其感 兴趣的模块输出数据直观的显示在上层的用户界面上。 为了达到通用并且可扩展的目的,多语种语音台成系统首先应当将合成算法和数据分 离。此外,数据类型和数据表现也应当分开考虑。网此,THMTTS的整体结构由3个部分 组成,分别是:数据类型定义模块、算法流程模块和图形化用户界面模块。模块之间的逻 辑关系如图1所示。 Cr,c,stalSonic 剩 TTsBase数据类掣定义 鬟:雾篓;iii壅羹隧慧?iiiEi!iii霾I 移 骨合吒争仓

文档评论(0)

带头大哥 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档