- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
汉语音节与口形关系的研究
王志明蔡莲红
清华大学计算机系(1∞啦4)
I_要:对于说话者^脸合成和观频音频综合墙码,由语音或文本两测说话者口彤是很重要
的.通过对汉语发专夏其相关目像的研究,长文提出一种汉语声母韵母发音进行分类的方
法,按奏建立了与口形的时应关系,并得出各类声母舳基本口形串曲母的口形变化曲线;
另外,我们摹用多层首馈神经网络实理了由语专信号饲谱系裁及能量到部分口形参敷的转
换.
荚t词:税梵语音,多层惠知器,饲谱系数
1 引言
语音信号和视觉信号是^类信息和知识的主要赣体,是人类进行学习和交藏的重要工
具。让计算机能够娃理多媒体信息,以便为改善人机交互方式和丰富人_耵的生话已经在世
界范田内受封了瞢追的重视。随着近年来多媒体技术的飞速发晨和许多应用顿域的需求,
人11对声音、图像的娃理技术已有了深人的研究,但对声音和图像之闯内在关系的研究还
不够深^。
对视毖语音(v妯蛆s口∞ch)的研究正是这样一种综合考虑声音和图舶々多媒体技术。
楗羹晤音是指^11在用语言交流时所表达出的面都表情和动作,它能在—定程度上传达人
们想要表达的意思,并俄帮助人们加深对语言的理解。研究表明,在环境噪声较大或听话
者有听力障碍的情况下,如果在给出声音信息的同时德给出一个“讲话的头”(hlh鸣
Il嘲Id)。母酷话者面蟀表暗和嘴部、眼部等变化情况爵会大大改善^们对声音的理解。在人
机交互的过程中.如果人幻面对的不是单纯的文本,而是—千会说话的^钧形象嘲使人觉
得计算机界面更为友善,方便人们和计算机舶交流。近几年来,对视璧浯音帕研究越来越
受到人们的重视,已成为一个多媒体和人机交互技术研究领域相当活寥磁研究方向。
无论是对羼读的研究还是对人脸图象台成舶研究.首要的问题麓悬耍建立起语音和口
形的对应关系,国外已有很多学者对各种语言作了相应的研究,并已开发出商业化的产品,
面国内对越—方面的研究剐相对较少。在研究某种语盲的基本口形时,人_盯—般只是根据
主观的猁各种发音的口形作了简单的分类,如姗r&瞰将英鼠茛音的口形分为16个
RK畦a皿柚将瑚典语分为10或13十墓奉类【2】,a糕肛晒oJo糟囊嘲}语分为
基奉类flk
15十基本类【3】。但我首】认为这样觯的魁分有两个缺点:首先,这种捌分是主观的,无法
确定所作的捌分是否合理或是否最好;其次,对某些发音.很难用f奇单的一幅图象来翔划
—个音节.因为它是—个连续变化的过程。在本文中兹们提出—种对投语声母韵母菩暗口
形更客观、更准确的分类方法,即根据汉语‘各种发音耐口形变化的过程中厝内高、唇宽、
上下齿的露出程度等各个参数之间的相似度以及分类后总误差的变化曲线,将汉语声母韵
·137·
母发音的口形埘分为几个基本类,并可由此得出各类声母的基本口形和韵母发音的口形变
化曲线。
对于由语音信号到口形参数的映射.人们也提出了多种方法,将语音信号矢量量化分
类、采用神经网络或混合高斯模型分类【4】.以及采用隐马尔克夫模型【5】。在用神经髓络实
现由语音翻口形参数转化的过程中,选取合适的用络结构和输入信号至关重要。在对发音
口形参数的学习过程中,我们采用了隐含层较少但隐含结点较多的前馈神经弼络结构,输
入羲据为语音信号的倒谱系数和平均龃,取得了较好的实验效果。
2汉语音节发音的口形参数和分类
为了描述^幻说话时的口形,我们采用了四个参数,分别是上下唇之间的高度、咀唇
的宽度、上齿露出度和下齿露出度。在汉语正常说话过程中,一般语速为枷,按每秒
2s幢计算,每个汉字约为4~8图象。由于声母发音时长较短,对每—个声母的发音,我们
提取出具看代表意义的一幅图象来描述它;而韵母的发音占了整个汉字发音的大部分,因
此对每个韵母的发音我们从整个发音过程中提取出6幅图象。对每一幅图象手动澍得上述
四十参数。这样,对每一个声母的口形我们用4个参数来描述;对每一个韵母箍们用24个
参舞[jIg描墨。
为了蕾对汉语中所有的声母和韵母作—钔哩的分类,我们对所有可以单独发音的55个
声母和椅母(缺韵母。岵、∞、-i和e)所对应的汉字作了发音录象,对21个声母在4维空
阎进行聚类。对于韵母,刚投有必要用所有38去聚类,因为大多散的复合韵母的口形可由
单韵母的口形组合得到,因此我韶选取了20个韵母在24维空间进行口
您可能关注的文档
最近下载
- TBNCY002-2023 西双版纳红茶 晒红茶.pdf VIP
- 机关单位人力资源管理中存在的问题及解决对策.docx VIP
- 2025年中级(四级)营销员职业技能鉴定《理论知识》真题卷(后附答案及解析).pdf VIP
- 大数据概论教学课件.pptx VIP
- 西双版纳红茶 晒红茶.docx VIP
- 室内装修全工程施工方案(3篇).docx VIP
- 2025年卫生事业单位招聘考试(中医学基础知识)历年参考题库含答案详解(5卷).docx VIP
- 50个广告分析.doc VIP
- GB32030-2022 潜水电泵能效限定值及能效等级 (2).pdf VIP
- (语文)福州时代中学2020级初一新生入学检测.pdf VIP
文档评论(0)