汉语语音视位研究1.pdfVIP

下载本文档

3
0
约1.38万字
约 6页
2017-08-31 发布于安徽
举报
版权申诉

汉语语音视位研究1.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

汉语语音视位的研究1 王志明蔡莲红清华大学计算机系(100084) 摘要：MPEG-4 首次作为国际标准正式定义了视位（Viseme ）的概念，它是指与某一音位相对应的嘴、舌头、下腭等可视发音器官所处的状态。本文通过对汉语发音时各可见部分器官动作和发音规则的研究，将汉语发音分为 28 个基本静态视位。利用语音信息从 AVI 文件中自动抽取出这些基本视位图像，从 MPEG-4 所规定的68 个面部动画参数（FAP ）中提取出28 个来描述这些口形，并实现了部分FAP 参数的自动测量。最后，我们给出一个视位研究应用的实例。关键词：视位，面部动画参数，文本-语音转换系统，文本-可视语音转换系统 1.引言：人类对语言的理解是多模态的，即人们在相互交谈时，不仅听声音，而且用眼睛去观察说话人的面部表情。人们说话时复杂多变的面部表情不仅可以传达丰富的感情，而且可以增强对语言的理解。有的声音在听觉上是很容易混淆(如/bi/和/di/)，但因为它们在发音时口形有较大的差别，如果观察说话者的口形就很容易把它们区分开来。因此，人们在许多方面研究如何利用这种多媒体之间的交互作用。如依靠人工合成的虚拟人脸去提高人们在环境噪声较大的情况下对语音的理解；利用视觉信息辅助的双模态语音识别提高语音识别的识别率；利用人脸表情与语音的关系提高多媒体数据的压缩率，等等。随着人们研究的不断深入和许多实际应用的驱动，新的国际标准MPEG-4 提出了视位（Viseme）的概念，它由英文的Visual 和Phoneme 两词拼接而成。MPEG-4 对视位的定义是：Viseme is the physical (visual) configuration of the mouth, tongue and jaw that is visually correlated with the speech sound corresponding to a phoneme，即视位是指与某一音位相对应的嘴、舌头、下腭等可视发音器官所处的状态[1]。现在的MPEG 标准仅定义了静态视位（Static Viseme），但同时也指出不排除将来定义其它类型的视位。为叙述方便，我们将嘴、舌头、下腭等可视发音器官所处的状态简称为口形。音位是与某一特定的语言密切相关的，因而视位也是与语言相关的。虽然 MPEG-4 把国际音标的发音分为 15 个静态视位，但考虑到各种语言的发音特点和不同的音位组成，各国学者对不同语言的发音口形作了很多研究，现今多限于静态视位。如Bothe 将德语发音口形分为 12 个静态视位[2]、Le Goff 将法语发音口形分为19 个静态视位[3]、Ezzat 将英语发音口形分为 16 个静态视位[4]、Lande 将意大利语发音口形分为23 个静态视位[5]等等。也有人提出了一些动态视位的雏形，如用[2]中用0-4 帧图片表示一个音位的口形，[6]和[7]用小段原始图像序列合成新的图像序列，但还没有正式提出动态视位 (DynamicViseme)这个概念，更没有上升到参数化和模型化的高度。国内对于汉语视位的研究相对较少，晏洁将汉语分为6 个基本口形[8]，实现文本驱动的唇形合成,但分类过于简单；钟晓等人将汉语口形分为个12 类(包括 10 个基本口形和两个过渡口形)[9]，研究基本口形的识别，但分类时显然没有考虑到汉语的发音方式和舌位等口内器官的差别。本文首先在分析了汉语发音拼音结构的特点和发音口形后，将汉语发音口形分为 28 个基本的静态视位（第2 部分）。对于视位的量化描述，我们采用了MPEG-4 定义的面部动画参数FAP(Facial Animation Parameter)；对静态视位原始数据的获取，采用了一种基于语音信息指导的自动视位抽取方法，并利用图像跟踪技术实现了部分参数值的自动提取 (第3 部分)。我们讨论了连续语流中视位变体的问题，给出了一个视位研究应用的实例（第4 部分），最后是我们工作的总结(第5 部分)。 1本文受到国家教育部高等学校博士学科点专项科研基金(20010003049)资助。 1 2.汉语静态视位每种语言均具有特定的音位集和特有的发音特点，所以不同语言的视位并不能完全共用。如汉语的 /a/可能在不同的