《调速系统》大作业 样本 - 副本.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
PAGE  《调速系统》大作业 2012年11月28日 语音合成系统中波形拼接过渡算法的研究 姓名:赵越 学号 年级:2008级 黑龙江大学电子工程学院自动化专业 摘 要:在现代的汉语语音合成的波形拼接合成方法中,没有考虑前后音节的声学影响,导致在音节连接处出现协同发音的低质合成,这大大降低了合成语音的自然度。为解决这一问题,本文提出了一个根据汉语语音韵律特征的研究,通过修改音节的韵律特征参数,实现音节之间韵律特征参数波形拼接平滑过渡的算法。实验表明本文所提方法的有效性,其语音合成的自然度更高,对语料库的要求更低。 关键词:协同发音,语音合成,波形拼接,音素,韵律过渡 0 引言 以音节为基元的汉语语音合成中,当一个以元音结尾的音节与下一个以元音或摩擦音开头的音节相接时,??后音节的音调彼此互相影响会发生变异,甚至失去了原有的调型,即出现协同发音现象[3]。如果不考虑协同发音,语音波形的拼接会完全不同于真实的语音,这主要因为波形拼接使合成语音基元之间过渡连接的谱包络、幅度和基频特性的连续性变差,降低了合成语音的自然度[4]。例如,“我去西安。”一句,协同发音出现在“西安”两字处。如果不考虑协同发音,直接合成语音的发音是一字一顿,听起来感觉明显不自然。现行的解决方法是声调被切成过渡音素,诸如i-a, a-o, a-n-g, i-n-g, 等,当存在协同发音现象时,用过渡音素拼接,这种方法只适用于大的语音库。所以,如何利用语料库的有限存储容量来提高语音合成的自然度,一直以来是波形拼接合成方法研究的主要课题。人类通过语音信号的能量、基频和时间等,即韵律特征来感知语音[4]。音节或音素的能量和频率被表示为频谱能量分布,时间表示频谱能量分布的频率变化。由于发音器官的惯性作用,人类的发音过程中韵律特征参数分布是连续的,特别是协同发音短语时[5,6,7]。所以,我们提出了一个以音节为基元的波形拼接的语音合成算法,在音节连接处的过渡带内移动频谱能量分布。这种方法包含两个问题:一个是音节之间韵律特征参数的平滑过渡,另一个是语音基元的拼接。 1 语音基元之间过渡方法介绍 汉语音节的发音通常分为 “声母+韵母”和只有“韵母” 两种情况。因此,两个相邻音节之间的连接就是其前音节的韵母和后音节声母之间的连接过渡,或者是前后两个元音之间的连接过渡,这种连接过渡会随着前音节的韵母和后音节的声母组合形式的不同而不同。由此而来,两个相邻音节的拼接问题在语音合成过程中可以转化为下面三种拼接形式: 1.1 连续能量过渡 音节及音节之间可以被分成两部分:稳定语音带和过渡语音带。稳定语音带的谱能基本保持不变, 而过渡语音带的谱能是从前音节的韵尾连续而平滑地过渡到下一音节的韵头。语音信号经傅里叶变换计算后得到它的谱能,然后修改谱能系数,即从前音节韵尾的最后一个音素的谱能平滑过渡到相邻的下一音节韵头的第一个音素。修改后的结果再经傅里叶逆变换到时域,最后用PSOLA拼接信号波形。通过在过渡段修改谱能来合成过渡语音带,再把修改的过渡语音带与稳定语音带拼接,就实现了整个语音波形的拼接。 语音信号具有短时周期属性。要实现基于帧的语音信号处理,语音信号先被分成重叠的帧片段,为此,语音信号与汉宁窗相乘。 (1) 1.2 过渡语音带的波形拼接 从到过渡带的波形拼接,如图1、图2所示。 图1 从 i 到 a 过渡带的自然语音波形 图2 从 i 到 a 过渡带的合成语音波形 通过基音标注来实现基音同步叠加算法(PSOLA),该算法使用相同的音素进行拼接,并且波形变化不大。本文是对两个过渡音素拼接。在这个方案中,语音波形的相邻周期变化反常,所以基音标注方法在这里并不适用。为此,提出了内帧最小失真算法来解决这个问题。这个算法从语音信号的最后一帧,提取一段周期小于基音周期的语音,并把这段语音信号与下一帧语音信号相比较,找出与其最相似一段的语音信号。为此,定义相邻帧之间最小失真为: (3) 这里是滑动窗口的大小,通常选择大于2个基音周期,来保证窗口内语音2个周期,选择拼接结束点作为中的最小值。 2 主观测试和听辨实验 实验采用MOS(Mean Opinion Scores)测试。用20组平稳语调发音的汉语普通话语音合成,包括协同发音现象作为实验样本。与20段具有相同内容的自然语音短语比较,4位听者根据5分制的MOS给出可接受的自然度,即优-5分、良-4分、

您可能关注的文档

文档评论(0)

panguoxiang + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档