一种基于双重学习模型的可视语音合成系统.PDF

一种基于双重学习模型的可视语音合成系统.PDF

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
一种基于双重学习模型的可视语音合成系统

V01.35 第35卷第5期 北京工业大学学报 No.5 2009年5月 JOURNALOFBEIJINGUNIVERSITYOFTECHNOLOGY 2009 May 一种基于双重学习模型的可视语音合成系统 孙艳丰,林仙平,尹宝才,贾熹滨 (北京工业大学计算机学院多媒体与智能软件技术北京市重点实验室。北京100124) 摘要:为了在可视语音合成中获得更具有真实感的1:3型动画,提出了一种基于双重学习模型的合成方法.通 过隐马尔可夫模型和遗传算法相结合的方法,可以更好地学习出语音特征与可视特征间的映射关系.该模型能 去除传统语音识别领域在对大样本语音空间提取语音特征时的冗余信息.达到更好的可视语音预测效果.另 外,在口型特征的表示上提出了一种基于面部动画参数特征点的几何特征表示.不仅对在不一致的光照条件下 获得的训练样本有较好的鲁棒性,能更好地表征口型本身变化,而且与传统的主成分分析特征相比.具有较小的 向量维数,提高了训练和合成速度. 关键词:遗传算法;隐马尔可夫模型;语音合成;特征提取;语音处理;语音识别 中图分类号:TU391.4 文献标识码:A 文章编号:0254—0037(2009)05—0702—06 可视语音合成技术是随着多媒体和人工智能技术的发展而提出的一个新的研究课题.因为它可以提 供更加友好的人机交互界面,帮助人们通过多种行为模态增加信息含量[I七】,在家庭娱乐、虚拟现实等方 面也有很大的用途,目前国内外很多学者都在从事这方面的研究[3-4】.对于语音和口型之间的映射模型的 构建,主要有两大类解决方案:一类是建立音素级的语音和可视语音的映射模型;另一类是建立语音声学 特征和可视语音之间的映射模型.前者在很大程度上依赖于语音音素识别的成果,而目前语音音素识别 本身还是一个难点;后者则可以脱离对语音音素识别的依赖性,构建声学层语音特征与可视语音的映射模 型,所以现在越来越多地被采用.声学层语音特征的表示也有很多的改进,文献[5]中提出了一种将语音 discriminant 特征结合线性判别式分析(1inear analysis,简称u)A)和对数线性模型组合的方法。通过应用 2个模型的实验结果得知,将LDA模型嵌入到对数线性模型中能减少单词错误率。但是随着不同语音特 征的增加,应用单一的LDA矩阵不能很好地满足要求.文献[6]中证明了基于LDA的将语音特征梅尔倒 谱系数(Mel—frequencycepstral 率.由上可知。不同的语音特征表示方法都有自己的优势,携带不同的信息熵,因此结合多种现有语音特 征表示方法和多种模型可以提高可视语音合成系统的性能.在可视语音合成系统的研究上,人们开始从 以往的基于肌肉模型【7J和参数模型is]等方法的研究,转向基于帧级的合成具有真实感的可视语音序列的 研究上.这种方法能产生较好的真实感图像序列,因此成为目前研究的热点. 作者采用的是基于帧级的研究方法,通过大样本训练的方法,学习一个语音特征与可视特征的映射模 型.在原始输入语音的特征提取上,采用语音识别领域的MFCC和线性预测分析倒谱系数(1inear predictioncepstrum 粒度上的学习模型的控制,更好地解决可视语音合成中产生的1对多现象,动态适应每组语音对象。提取 其与视素(口型图像)最相关的语音特征,从而产生更加具有真实感的合成口型序列. 1系统框架 一个完整的可视语音合成系统主要包括2个阶段:第一,模型的训练阶段,如图1所示.在这个阶段, 收稿日期:2007.07.12. 才强教计划资助项目;国家科技支撑计划资助项目(2007BAHl3801). 作者简介:孙艳丰(1964一),女。黑龙江齐齐哈尔人。教授. 万方数据 第5期 孙艳丰.等:一种基于双重学习模型的可视语音合成系统 703

文档评论(0)

xiaozu + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档