基于分类线性加权的源-目标话者声音转换算法的研究 voice conversion from source speaker to target speaker based on classified linearly weighted transformation.pdfVIP

下载本文档

4
0
约1.39万字
约 6页
2017-08-13 发布于上海
举报
版权申诉

基于分类线性加权的源-目标话者声音转换算法的研究 voice conversion from source speaker to target speaker based on classified linearly weighted transformation.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

基于分类线性加权的源-目标话者声音转换算法的研究 voice conversion from source speaker to target speaker based on classified linearly weighted transformation

V01．13 第13卷第3期电路与系统学报 No．3 ANDSYSTEMS 2008年6月 JOURNALOFCIRCUITS June，2008 文章编号：1007．0249(2008)03—0106·05 基于分类线性加权的源一目标话者声音转换算法的研究· 张剑，戴蓓蓓，孙俊，陆伟，李辉 (中国科学技术大学电子科学与技术系，安徽合肥230026) 摘要。源一目标话者的声音转换是一种变换说话人声音特性的技术，它将源说话人的声音转换成另一个指定的目标说话人的声音。对源话者声道谱特性的修改是声音转换的关键之一。为了克服一般分类线性转换算法中分类不准确所带来的误差，本文引入了分类线性加权转换的策略，根据不同子类的转换函数对谱特性的贡献，赋予不同的加权系数，给出了一种基于GMM后验概率加权的线性转换算法。在微软汉语普通话语音数据库上做的四组对比实验表明，该算法在谱转换性能上均有不同程度的提高。关键词。声音转换；源一目标话者；声道谱转换；高斯混合模型；分类线性转换；分类线性加权转换中图分类号·TN912．34文献标识码。A 1 引言声音转换【l】(Voice 话者)的语音模式转换为与其特性不同的另一个人(常称之为目标话者)的语音模式。一般认为，语音信号中至少包含以下三个方面的信息：语义信息、说话人特征信息和说话环境信息。声音转换就是要在保持语义信息和说话环境信息的前提下，改变语音信号的说话人特性，使得转换后的语音具有目标话者的声音特点，实现的是与文本无关的、源一目标话者的特定人的转换，而非一般意义上的声音改变。该技术是对语音合成技术的丰富和延拓，有着广泛的应用前景【2’3】，例如：个性化文语合成系统的制作；多说话人语音语料库的采集和传输；娱乐和教育领域内个性化配音的产生。另外，语言障碍者的辅助发音系统、语音识别过程中的预处理也可看见声音转换技术的应用。一个完整的声音转换系统包括三个部分：特征参数的提取和建模、映射(转换)函数的获取、转换语音的合成。声音的产生机理表明，语音信号可看成是激励源信号通过一个线性时变系统产生的输出。这样，说话人个性就分别反映在激励源信息和声道信息上。其中，声道信息主要由声道转移函数的谱特性反映，精确地实现源一目标说话人谱特性的转换，是得到高质量的转换重建语音的关键。本文的工作集中在声道谱特性的转换算法上，介绍了分类线性的声道转换算法，在此基础上引入分类线性加权的算法思想，根据各子类的转换函数对谱转换的贡献来赋以不同的加权系数，这样就避免了分类不准带来的误差，一定程度上提高了算法的精度和鲁棒性。由于训练转换算法的过程，本质上是一个规则的统计过程，它对训练数据集有很强的依赖性，本文最后实验讨论了谱转换质量与训练集大小的关系。 2 分类线性转换算法(CLT) 为实现与文本无关的声音转换，需将语音分帧处理，并从每帧语音信号中提取出特征参数，进而在帧级总结出映射规则。如果对每帧语音都推导出一个规则，则因规则过多而使算法复杂度大，同时由于语音的易变性，几乎不可能找到完全相同的语音帧，这种以帧获取的规则无法推广到其它帧，所以必须采取分类策略，将某些属性相近的帧归为一类，以类获取映射规则。声音转换算法分为训练和转换两个阶段。在训练阶段，取源、目标话者语音的文本内容相同，用动态时间归整(DTW)算法将两者时间对齐，使得归整后的特征参数矢量序列长度相等，再按某种最优准则以类获取映射规则，常 ‘收稿日期·2005-05·16修订日期：2005．07．02 万方数据第3期张剑等：基于分类线性加权的源一目标话者声音转换算法的研究用的最优准则为最小均方误差(MSE)准则。对于某个特定的子类，假设(为，J，，)为归整后该类中任意一个特征参数对，则使下式取最小值的函数F为所求的该类转换函数，其中以)表示对式子取期望。占=E(IIYi—