唇形合成语音与唇形语音识别精要.pptVIP

下载本文档

71
0
约4.19千字
约 31页
2016-02-23 发布于湖北
举报

唇形合成语音与唇形语音识别精要.ppt

研究内容（3）对语音、唇型的参数提取和数据分析根据不同的信号库和研究目的，选择适当的参数，设计提取算法，进行数据分析建立统计模型，并进行相关理论领域的探讨。 ①语音主要的参数有：时长、基频(F0)、辅音强频区、振幅、谱倾斜率、共振峰的音轨、辅音和元音之间共振锋的过度段、VOT等等。在技术上，提取声学参数是采用比较经典和成熟的算法，共振峰和带宽用基音同步协方差（co-variance）LPC提取,基频用倒谱的方法提取。 ②唇型信号参数：内外唇线、唇宽度、唇高度、唇突度等。唇线特征提取主要是对已经提取的矩形区域进行唇区域和非唇区域的分割，然后对唇区域用已有唇模型分别检测出唇边缘。（13个参数） ③总结语音学唇位，根据每一个音的唇型变化(根据关键点运动轨迹描述唇线的变化),基于统计学上的归纳和分类,建立唇形数据库，从而得出唇位的类型。研究内容（4）建立语音驱动的唇位模型根据统计数据建立语音和唇型之间的关联模型，建立语音驱动的唇位模型。首先对文本进行国际音标的转换，使其成为音位序列，然后按音节为单位，声韵母分别调用各自对应的唇位图像组进行拼接，可用内插法解决语音和唇位的时间对应。对每一个视频文件，使用非线性编辑器对采集的图像进行分帧（每秒24帧），对每一帧建立唇线自动匹配系统，手动调整12个外唇线关键和9个内唇线关键点，能够自动保存关键点参数。 EILAN提出的唇边缘检测模型识别前期：用隐马尔科夫模型进行序列.一个隐马尔可夫模型(HMM)是一个双随机序列,包括状态序列和可观察值序列。用MFCC(mel-frequency cepstrum coefficients)提取13维的参数。加能量、幅度几个信号，求导提取参数18个。 Thank You! L/O/G/O L/O/G/O L/O/G/O 唇形唇唇唇位于口腔的最前端，分上唇和下唇，两唇共同围成口裂，口裂两端称口角。唇是言语器官中唯一可以从外部被观察到的部分，因此在发音过程中唇形的变化被聋哑人用来作为识别对方讲话的依据。唇由口轮匝肌组成。轮匝肌又称为唇内肌，它的作用在于关闭双唇，发出唇音p、b、m等；唇外肌中上唇肌和颧肌司提升上唇；下唇肌和三角肌管降低下唇，而笑肌和颊肌主绷紧双唇。口唇解剖图基本知识基本知识下唇与上齿接近能产生唇齿音f、v。在元音发音中，圆唇的结果能发出圆唇元音。此外，舌尖元音加上圆唇的作用，能发出【?】等圆唇舌尖元音。元音：和唇形的关系，区别特征，圆唇和展唇，共振峰的关系辅音：主要的发音部位之一。国际音标表唇读(lip-reading/speech-reading),是指通过观察说话者的口型变化,“读出”或“部分读出”其所说的内容.研究唇读目的是利用视觉信道信息补充听觉信道的信息,以提高计算机系统的理解力. 唇读计算机唇读计算机唇读是指通过建立口型模型和分析运动参数,定量地处理唇动信息辅助进行语音识别,或者是直接对序列图像进行分类和识别,以提高语音识别技术的准确率和鲁棒性。鲁棒性就是系统的健壮性。它是在异常和危险情况下系统生存的关键。比如说，计算机软件在输入错误、磁盘故障、网络过载或有意攻击情况下，能否不死机、不崩溃，就是该软件的鲁棒性。所谓“鲁棒性”，是指控制系统在一定（结构，大小）的参数摄动下，维持某些性能的特性。根据对性能的不同定义，可分为稳定鲁棒性和性能鲁棒性。以闭环系统的鲁棒性作为目标设计得到的固定控制器称为鲁棒控制器。唇读的识别方法 ★ 唇读识别中较常使用的方法是基于特征向量法把提取的特征作为向量进行HMM的状态匹配。这样做的缺点是状态不确定,搜索的时间和空间规模较大,很难做到识别的实时性。 ★另一种方法是基于口型分类法人在发相同的音时,口型是基本不变的,发相似的音时口型上也存在很大的相似性,所以将汉语发音的变化口型进行聚类是可行的。明确了口型的种类也就明确了发音时的状态,在这些状态的基础上进行唇读的识别,就可以去掉直接使用特征向量识别时状态变化的不确定性,缩小状态空间,提高最佳状态匹配的收敛速度。交叉学科唇形研究是对语音研究和图像处理的交叉学科的探索，内容涉及语言学、图像处理、模式识别、计算机视觉、自然语言理解等多个领域，他的进步可以促进许多学科的进步。国外研究现状国际上目前语音学基础理论研究的前沿正从过去单一的语音学转向语音学科的整体研究，这种多学科整体研究的集中体现就是“语音多模态(multi-modal of speech)”研究。由于语音多模态研究的基础理论成果能够促进相关信息科学的发展，因而许

您可能关注的文档

文档评论（0）

1亿VIP精品文档

更多 >

唇形合成语音与唇形语音识别精要.pptVIP