基于Xface藏语TTVS的实现-电子与通信工程专业论文.docxVIP

下载本文档

1
0
约4.4万字
约 52页
2019-02-15 发布于上海
举报
版权申诉

基于Xface藏语TTVS的实现-电子与通信工程专业论文.docx

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

万万方数据独创性声明本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包括其他人己经发表或撰写过的研究成果，也不包含为获得西北师范大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢意。签名: 毒品i孔日期: 1心(生‘ 6，1 关于论文使用授权的说明本人完全了解西北师范大学有关保留、使用学位论文的规定， p :学校有权保留送交论文的复印件，允许论文被查阅和借阅; 学校可以公布论文的全部或部分内容，可以采用影印、缩印或其他复制手段保存论文。 (保密的论文在解密后应遵守此规定) 签名:港邮民导师签名:柏尚讲日期: 201$.6. 2.. 西北师西北师范大学硕士学位论文摘要随着人机语音交互的迅速发展，可视语音合成（Text-to-Visual Speech，TTVS）技术一度成为研究的热点。但是面向少数民族语言的 TTVS 的研究还处于萌芽时期，因此对藏语 TTVS 的研究具有开创性。本文提出了一种基于 Xface 平台实现藏语 TTVS 的方法，首先建立一个可视的三维人脸头像，然后通过分析藏语的声韵母的特点建立藏语的口形库，利用 FAP(Facial Animation Parameter, FAP)参数流驱动藏语口形的动作，并与一个藏语统计参数语音合成系统相结合，实现藏语的 TTVS。论文的主要工作和创新如下： 1．实现了一个基于 Xface 的人脸动画系统。利用 MPEG-4 (Moving Pictures Experts Group - 4)标准中的人脸面部定义参数 (Facial Definition Parameter,FDP)以及能够驱动人脸动画的人脸动画参数共同建立人脸模型，在此基础上利用 Xface 开发平台实现人脸动画系统。 2．建立了一个面向藏语可视语音的藏语口形库。以声韵母为基元来定义和描述藏语发音的口形。通过对比汉语和藏语在声韵母上的差别，利用汉语和藏语语音在声韵母上的发音相似性实现对藏语声韵母的发音口形的 FDP 和 FAP 的描述和定义。对于与汉语相同的藏语声韵母，其口形用国际音标的发音口形来描述定义；藏语中与汉语声韵母不同的，则按照藏语自身的发音特点来对其进行定义。在此基础上，利用藏语声韵母的发音口形的 FDP 和 FAP，通过 Xface 实现了对藏语口形库的建立。 3．实现了基于 Xface 的藏语 TTVS。将人脸动画系统中各个声韵母的口形动作的起止时间分别与藏语语音合成系统中各个声韵母发音的起止时间相对应，使发音与口形相匹配，实现藏语的 TTVS。对系统的可视化效果及有无人脸动画系统参与情况下，语音合成系统合成的语音的可懂度进行了主观评测。实验结果表明，系统的可视化效果的平均 MOS 得分为 3.6 分；无人脸动画系统参与时，合成语音的平均 MOS 的分为 4.1 分，有人脸动画系统参与时，合成语音的平均 MOS 的分为 4.6 分。关键词：人脸模型；可视语音合成；人脸定义参数；人脸动画参数；藏语；Xface I - 基于基于 Xface 藏语 TTVS 的实现 Abstract TTVS (Text-to-Visual Speech) technology has become a research hot spot with the rapid development of human-computer speech interaction. However, the TTVS for Chinese minorities are still in its infancy. Therefore the research on Tibetan TTVS has groundbreaking. The thesis proposes a method to realize the Tibetan TTVS based on the Xface platform. A visual 3D facial animation system is established according to the MPEG-4 (Moving Pictures Experts Group-4) standard. The facial action is driven by a Tibetan mouth shape library that is obtained by analyzing the characteristics of Tibetan initials and Tibe