汉语音节和口形关系的研究.pdfVIP

  • 3
  • 0
  • 约 5页
  • 2017-08-18 发布于安徽
  • 举报
汉语音节与口形关系的研究 王志明蔡莲红 清华大学计算机系(1∞啦4) I_要:对于说话者^脸合成和观频音频综合墙码,由语音或文本两测说话者口彤是很重要 的.通过对汉语发专夏其相关目像的研究,长文提出一种汉语声母韵母发音进行分类的方 法,按奏建立了与口形的时应关系,并得出各类声母舳基本口形串曲母的口形变化曲线; 另外,我们摹用多层首馈神经网络实理了由语专信号饲谱系裁及能量到部分口形参敷的转 换. 荚t词:税梵语音,多层惠知器,饲谱系数 1 引言 语音信号和视觉信号是^类信息和知识的主要赣体,是人类进行学习和交藏的重要工 具。让计算机能够娃理多媒体信息,以便为改善人机交互方式和丰富人_耵的生话已经在世 界范田内受封了瞢追的重视。随着近年来多媒体技术的飞速发晨和许多应用顿域的需求, 人11对声音、图像的娃理技术已有了深人的研究,但对声音和图像之闯内在关系的研究还 不够深^。 对视毖语音(v妯蛆s口∞ch)的研究正是这样一种综合考虑声音和图舶々多媒体技术。 楗羹晤音是指^11在用语言交流时所表达出的面都表情和动作,它能在—定程度上传达人 们想要表达的意思,并俄帮助人们加深对语言的理解。研究表明,在环境噪声较大或听话 者有听力障碍的情况下,如果在给出声音信息的同时德给出一个“讲话的头”(hlh鸣 Il嘲Id)。母酷话者面蟀表暗和嘴部、眼部等变化情况爵会大大改善^们对声音的理解。在人 机交互的过程中.如果人幻面对的不是单纯的文本,而是—千会说话的^钧形象嘲使人觉 得计算机界面更为友善,方便人们和计算机舶交流。近几年来,对视璧浯音帕研究越来越 受到人们的重视,已成为一个多媒体和人机交互技术研究领域相当活寥磁研究方向。 无论是对羼读的研究还是对人脸图象台成舶研究.首要的问题麓悬耍建立起语音和口 形的对应关系,国外已有很多学者对各种语言作了相应的研究,并已开发出商业化的产品, 面国内对越—方面的研究剐相对较少。在研究某种语盲的基本口形时,人_盯—般只是根据 主观的猁各种发音的口形作了简单的分类,如姗r&瞰将英鼠茛音的口形分为16个 RK畦a皿柚将瑚典语分为10或13十墓奉类【2】,a糕肛晒oJo糟囊嘲}语分为 基奉类flk 15十基本类【3】。但我首】认为这样觯的魁分有两个缺点:首先,这种捌分是主观的,无法 确定所作的捌分是否合理或是否最好;其次,对某些发音.很难用f奇单的一幅图象来翔划 —个音节.因为它是—个连续变化的过程。在本文中兹们提出—种对投语声母韵母菩暗口 形更客观、更准确的分类方法,即根据汉语‘各种发音耐口形变化的过程中厝内高、唇宽、 上下齿的露出程度等各个参数之间的相似度以及分类后总误差的变化曲线,将汉语声母韵 ·137· 母发音的口形埘分为几个基本类,并可由此得出各类声母的基本口形和韵母发音的口形变 化曲线。 对于由语音信号到口形参数的映射.人们也提出了多种方法,将语音信号矢量量化分 类、采用神经网络或混合高斯模型分类【4】.以及采用隐马尔克夫模型【5】。在用神经髓络实 现由语音翻口形参数转化的过程中,选取合适的用络结构和输入信号至关重要。在对发音 口形参数的学习过程中,我们采用了隐含层较少但隐含结点较多的前馈神经弼络结构,输 入羲据为语音信号的倒谱系数和平均龃,取得了较好的实验效果。 2汉语音节发音的口形参数和分类 为了描述^幻说话时的口形,我们采用了四个参数,分别是上下唇之间的高度、咀唇 的宽度、上齿露出度和下齿露出度。在汉语正常说话过程中,一般语速为枷,按每秒 2s幢计算,每个汉字约为4~8图象。由于声母发音时长较短,对每—个声母的发音,我们 提取出具看代表意义的一幅图象来描述它;而韵母的发音占了整个汉字发音的大部分,因 此对每个韵母的发音我们从整个发音过程中提取出6幅图象。对每一幅图象手动澍得上述 四十参数。这样,对每一个声母的口形我们用4个参数来描述;对每一个韵母箍们用24个 参舞[jIg描墨。 为了蕾对汉语中所有的声母和韵母作—钔哩的分类,我们对所有可以单独发音的55个 声母和椅母(缺韵母。岵、∞、-i和e)所对应的汉字作了发音录象,对21个声母在4维空 阎进行聚类。对于韵母,刚投有必要用所有38去聚类,因为大多散的复合韵母的口形可由 单韵母的口形组合得到,因此我韶选取了20个韵母在24维空间进行口形分类。因为我们 —开始并不知道需要

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档