- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语语音视位的研究1
王志明 蔡莲红
清华大学计算机系(100084)
摘要:MPEG-4 首次作为国际标准正式定义了视位(Viseme )的概念,它是指与某一音位相对应的嘴、
舌头、下腭等可视发音器官所处的状态。本文通过对汉语发音时各可见部分器官动作和发音规则的研究,
将汉语发音分为 28 个基本静态视位。利用语音信息从 AVI 文件中自动抽取出这些基本视位图像,从
MPEG-4 所规定的68 个面部动画参数(FAP )中提取出28 个来描述这些口形,并实现了部分FAP 参数
的自动测量。最后,我们给出一个视位研究应用的实例。
关键词:视位,面部动画参数,文本-语音转换系统,文本-可视语音转换系统
1.引言:
人类对语言的理解是多模态的,即人们在相互交谈时,不仅听声音,而且用眼睛去观察说话人的面
部表情。人们说话时复杂多变的面部表情不仅可以传达丰富的感情,而且可以增强对语言的理解。有的
声音在听觉上是很容易混淆(如/bi/和/di/),但因为它们在发音时口形有较大的差别,如果观察说话者
的口形就很容易把它们区分开来。因此,人们在许多方面研究如何利用这种多媒体之间的交互作用。如
依靠人工合成的虚拟人脸去提高人们在环境噪声较大的情况下对语音的理解;利用视觉信息辅助的双模
态语音识别提高语音识别的识别率;利用人脸表情与语音的关系提高多媒体数据的压缩率,等等。
随着人们研究的不断深入和许多实际应用的驱动,新的国际标准MPEG-4 提出了视位(Viseme)的
概念,它由英文的Visual 和Phoneme 两词拼接而成。MPEG-4 对视位的定义是:Viseme is the physical
(visual) configuration of the mouth, tongue and jaw that is visually correlated with the speech
sound corresponding to a phoneme,即视位是指与某一音位相对应的嘴、舌头、下腭等可视发音器官
所处的状态[1]。现在的MPEG 标准仅定义了静态视位(Static Viseme),但同时也指出不排除将来定义
其它类型的视位。为叙述方便,我们将嘴、舌头、下腭等可视发音器官所处的状态简称为口形。
音位是与某一特定的语言密切相关的,因而视位也是与语言相关的。虽然 MPEG-4 把国际音标的发
音分为 15 个静态视位,但考虑到各种语言的发音特点和不同的音位组成,各国学者对不同语言的发音
口形作了很多研究,现今多限于静态视位。如Bothe 将德语发音口形分为 12 个静态视位[2]、Le Goff 将
法语发音口形分为19 个静态视位[3]、Ezzat 将英语发音口形分为 16 个静态视位[4]、Lande 将意大利
语发音口形分为23 个静态视位[5]等等。也有人提出了一些动态视位的雏形,如用[2]中用0-4 帧图片
表示一个音位的口形,[6]和[7]用小段原始图像序列合成新的图像序列,但还没有正式提出动态视位
(DynamicViseme)这个概念,更没有上升到参数化和模型化的高度。国内对于汉语视位的研究相对较少,
晏洁将汉语分为6 个基本口形[8],实现文本驱动的唇形合成,但分类过于简单;钟晓等人将汉语口形分
为个12 类(包括 10 个基本口形和两个过渡口形)[9],研究基本口形的识别,但分类时显然没有考虑到
汉语的发音方式和舌位等口内器官的差别。
本文首先在分析了汉语发音拼音结构的特点和发音口形后,将汉语发音口形分为 28 个基本的静态
视位(第2 部分)。对于视位的量化描述,我们采用了MPEG-4 定义的面部动画参数FAP(Facial Animation
Parameter);对静态视位原始数据的获取,采用了一种基于语音信息指导的自动视位抽取方法,并利用
图像跟踪技术实现了部分参数值的自动提取 (第3 部分)。我们讨论了连续语流中视位变体的问题,给
出了一个视位研究应用的实例(第4 部分),最后是我们工作的总结(第5 部分)。
1本文受到国家教育部高等学校博士学科点专项科研基金(20010003049)资助。
1
2.汉语静态视位
每种语言均具有特定的音位集和特有的发音特点,所以不同语言的视位并不能完全共用。如汉语的
/a/可能在不同的
您可能关注的文档
- 关于妊娠高血压病案分析.doc
- 关于实行税源管理专业化理论思考.doc
- 关于水闸与渡槽设计合理性.pdf
- 关于泰州、南通两市税源专业化管理工作调查报告.doc
- 关于推进税源专业化管理工作几点思考.doc
- 关于文化危机与文化重建几个相关问题.doc
- 关于我国固定资产投资走势分析与预测.pdf
- 关于我国开征物业税难点分析.doc
- 关于我国税制改革若干问题综述.doc
- 关于我国税制改革与实践思考.doc
- 夯实分类分级经验成果全面推进所得税税源专业化管理.doc
- 好资料-基于消费者行为市场营销.ppt
- 河北省沧州市颐和中学2009-2010学年下学期初中七年级期末教学质量评估考试生物试卷(冀少版).doc
- 河北省迁安一中高二生物 实验班基因工程学案 新人教版.doc
- 河北省正定中学09-10学年度高二生物第二学期期末考试【会员独享】.doc
- 河南大别山北麓千鹅冲特大隐伏斑岩型钼矿床地质特征及成矿时代_李法岭.pdf
- 河南某钒矿湿法提取五氧化二钒试验的研究.pdf
- 河南南泥湖Mo_W_Cu_Pb_Zn_Ag_Au成矿区内生成矿系统.pdf
- 河南皮家寨金异常综合评价及找矿预测.pdf
- 河南祁雨沟金矿床地质地球化学特征和矿床成因讨论.pdf
最近下载
- 党小组工作职责与相关制度汇编.docx VIP
- 英语丨贵州省贵阳市2024届高三上学期8月摸底考试英语试卷及答案.pdf VIP
- 2025年杭州市房地产市场监测报告.doc VIP
- 仓库管理岗位职责仓库管理岗位职责精选.doc VIP
- TGDICST-粉类防晒化妆品 SPF 值体外测定方法.pdf VIP
- 高处作业施工专项方案.docx VIP
- 政府采购评审专家资格考试题库.doc VIP
- DB4412_T 19-2022 消防车道、救援场地和窗口标识设置规范.docx VIP
- 2025年5月三级人力资源管理师考试《理论知识》真题试卷【完整版】.pdf VIP
- 仓库管理规章制度.pdf VIP
文档评论(0)