基于分类线性加权的源-目标话者声音转换算法的研究 voice conversion from source speaker to target speaker based on classified linearly weighted transformation.pdfVIP

基于分类线性加权的源-目标话者声音转换算法的研究 voice conversion from source speaker to target speaker based on classified linearly weighted transformation.pdf

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
基于分类线性加权的源-目标话者声音转换算法的研究 voice conversion from source speaker to target speaker based on classified linearly weighted transformation

V01.13 第13卷第3期 电路与系统学报 No.3 ANDSYSTEMS 2008年6月 JOURNALOFCIRCUITS June,2008 文章编号:1007.0249(2008)03—0106·05 基于分类线性加权的源一目标话者声音转换算法的研究· 张剑, 戴蓓蓓, 孙俊, 陆伟, 李辉 (中国科学技术大学电子科学与技术系,安徽合肥230026) 摘要。源一目标话者的声音转换是一种变换说话人声音特性的技术,它将源说话人的声音转换成另一个指定的目 标说话人的声音。对源话者声道谱特性的修改是声音转换的关键之一。为了克服一般分类线性转换算法中分类不准确 所带来的误差,本文引入了分类线性加权转换的策略,根据不同子类的转换函数对谱特性的贡献,赋予不同的加权系 数,给出了一种基于GMM后验概率加权的线性转换算法。在微软汉语普通话语音数据库上做的四组对比实验表明, 该算法在谱转换性能上均有不同程度的提高。 关键词。声音转换;源一目标话者;声道谱转换;高斯混合模型;分类线性转换;分类线性加权转换 中图分类号·TN912.34文献标识码。A 1 引言 声音转换【l】(Voice 话者)的语音模式转换为与其特性不同的另一个人(常称之为目标话者)的语音模式。一般认为,语 音信号中至少包含以下三个方面的信息:语义信息、说话人特征信息和说话环境信息。声音转换就是 要在保持语义信息和说话环境信息的前提下,改变语音信号的说话人特性,使得转换后的语音具有目 标话者的声音特点,实现的是与文本无关的、源一目标话者的特定人的转换,而非一般意义上的声音 改变。该技术是对语音合成技术的丰富和延拓,有着广泛的应用前景【2’3】,例如:个性化文语合成系统 的制作;多说话人语音语料库的采集和传输;娱乐和教育领域内个性化配音的产生。另外,语言障碍 者的辅助发音系统、语音识别过程中的预处理也可看见声音转换技术的应用。 一个完整的声音转换系统包括三个部分:特征参数的提取和建模、映射(转换)函数的获取、转 换语音的合成。声音的产生机理表明,语音信号可看成是激励源信号通过一个线性时变系统产生的输 出。这样,说话人个性就分别反映在激励源信息和声道信息上。其中,声道信息主要由声道转移函数 的谱特性反映,精确地实现源一目标说话人谱特性的转换,是得到高质量的转换重建语音的关键。本 文的工作集中在声道谱特性的转换算法上,介绍了分类线性的声道转换算法,在此基础上引入分类线 性加权的算法思想,根据各子类的转换函数对谱转换的贡献来赋以不同的加权系数,这样就避免了分 类不准带来的误差,一定程度上提高了算法的精度和鲁棒性。由于训练转换算法的过程,本质上是一 个规则的统计过程,它对训练数据集有很强的依赖性,本文最后实验讨论了谱转换质量与训练集大小 的关系。 2 分类线性转换算法(CLT) 为实现与文本无关的声音转换,需将语音分帧处理,并从每帧语音信号中提取出特征参数,进而 在帧级总结出映射规则。如果对每帧语音都推导出一个规则,则因规则过多而使算法复杂度大,同时 由于语音的易变性,几乎不可能找到完全相同的语音帧,这种以帧获取的规则无法推广到其它帧,所 以必须采取分类策略,将某些属性相近的帧归为一类,以类获取映射规则。声音转换算法分为训练和 转换两个阶段。在训练阶段,取源、目标话者语音的文本内容相同,用动态时间归整(DTW)算法将 两者时间对齐,使得归整后的特征参数矢量序列长度相等,再按某种最优准则以类获取映射规则,常 ‘收稿日期·2005-05·16修订日期:2005.07.02 万方数据 第3期 张剑等:基于分类线性加权的源一目标话者声音转换算法的研究 用的最优准则为最小均方误差(MSE)准则。对于某个特定的子类,假设(为,J,,)为归整后该类中任意 一个特征参数对,则使下式取最小值的函数F为所求的该类转换函数,其中以)表示对式子取期望。 占=E(IIYi—

您可能关注的文档

文档评论(0)

hello118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档