语音合成技术在藏语TTS中的应用的的研究.pdfVIP

语音合成技术在藏语TTS中的应用的的研究.pdf

  1. 1、本文档共4页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第27卷总第61期 西 北 民族 大 学 学 报 (自然科学版) V01.27.No.1 2006年 3 月 JournalofNorthwestUniversityforNationalities(NaturalScience) March,2006 语音合成技术在藏语 TTS中的应用研究 杨 博 ,于洪志2,关 白2 (1.太原科技大学,山西 太原030024;2.西北民族大学 中国民族信息技术研究院,甘肃 兰州730030) 【摘 要]语音是人类相互交流和通信最方便快捷的手段,而语音中的韵律包含 了说话人的意图信息,在帮助听者 理解语言及意图时十分有用 .对于韵律的研究是语音舍成技术中的重要研究课题 .通过介绍语音韵律控制技术及其在 1vrS中应用的一些情况,内容包括语音韵律研究的基本情况及今后的工作重点。语音合成技术中韵律调整的方法。以及 中的韵律生成模型和声学模块 . [关键词】计算机应用;信息处理;文语转换;韵律;语音合成 [中图分类号】TP391 [文献标识码]A [文章编号]1009—2102(2006)01—0040—03 语音合成即文语转换(TextToSpeech),简称TTS技术 .TTs的研究工作建立在语音语料库建设 的工作基础之上,后者要求语音语料库尽量涵盖音段发音和超音段的音联现象,除了反映声调、语调等 超音段信息以外,最重要的是体现语音音段间,特别是音节间的音联现象,其中对语音 自身韵律的深入 研究和了解是这两方面研究的重要课题 . 自然语音中感情和语气的丰富变化,是通过音高、音强和响度等方面的变化表现出来的。这些特征 称为韵律(Prosody).韵律主要是听觉特征,它们是心理量,因此需要用时长、幅度、基频等声学特征来测 量 .韵律规则由说话方式和语言本身规律两者共同确定 .可以说,说话方式给整个语境奠定了一个全 局基调,而个性、情绪都会对韵律产生影响 .TTS只有充分表现出语言本身的韵律特征,才能得到 自然 度和可懂度都比较高的合成语音 . 1 语音合成技术中的基元选取和韵律调整 韵律包含了系统的感知信息和说话人的意图信息,在帮助听者理解语言及意图时十分有用 .从听 觉的角度出发,常常利用音长、音强、音高和音色四个语音听觉特征来描述韵律,此外,语音中适当的停 顿也是韵律的一个很重要成分 .从声学角度出发,它们对应的语音特征有时长、幅度、基频和频谱等 . 基频是韵律特征中最主要的声学特征,说话过程中,声音基频的变化反映了说话人的情绪,或是语句内 容的不同重要性 . 11 TTS中合成基元的选取 由于语音的音联现象,在音节 内部,声母和韵母在时间上连接紧密,在特性上相互影响 .而在相邻 音节、词汇之间的影响就逐级变小 .音素是音的最小单位,音素作为合成基元,所需的存储容量小,但难 于表达语音复杂多变的细微韵律特性 . TTs中以音节为单位建立起语音数据库,此外,辅助建立了字母(包括声韵母)、词汇、短语、句子的 [收稿 日期]2005—12—10 [基金项 目】国家 自然科学基金项 目(基金号 [作者简介]杨博(1978一),男,陕西省宝鸡市人。硕士,主要从事语音处理方面的研究 . - - — — 40 -·—— 语音库 .韵律的研究,既要尊重语音表现的物理规律,又要注意语言习惯,还要符合人的主观感知结果, 重点需要分析时长、基频和幅度之间的关系,在重读时,即幅度增大时,发音的基频和幅度都是提高的, 基音周期数增多 . 假设已知一个文本序列:zI’z2,…,zj,…,z ;选定的相应语音基元序列:Y1,Y2,…,Y1…,Y,其中 为音节的序号,为文本序列中文本单元的数目.定义:文本序列中的某个文本单元 有多个候选的 语音数据在语音数据库中Yil,Yi2,… ,…,Yi,其中定义Yik为z对应的第七个候选者,优为本组候选 单元的个数.定义韵律匹配代价函数F(y~k),用于度量候选单元3,与相应的文本单元 韵律特征参数 信息的不匹配程度 .该函数值越大,说明候选单元越不符合相应的待合成文本单元的韵律特征要求 . 在进行基元选取时,从BaYes的准则出发,为每个文本单元 z计算其对应的每个候选基元的韵律 匹配代价函数值,并且选择代价函数值最小者F( )=min{F(.y)}(1≤k≤m),则 .),c『为最

文档评论(0)

feiyang66 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档