计算机辅助语言学习中基于K-GMM模型的一种汉语声调识别技术及其应用研究.docxVIP

计算机辅助语言学习中基于K-GMM模型的一种汉语声调识别技术及其应用研究.docx

  1. 1、本文档共6页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

?

?

计算机辅助语言学习中基于K

GMM模型的一种汉语声调识别技术及其应用研究

?

?

计算机辅助语言学习中基于K—GMM模型的一种汉语声调识别技术及其应用研究

一、引言

汉语是我国的语言,其中官方通用语言为普通话,学习汉语主要是通过老师上课教、学生课后根据书本上的汉语拼音学习的方式进行。这种方法对教师的依赖性过大,虽然教师通过普通话测试,但是仍然有一部分教师存在口音问题,同时这种学习方式对学生的普通话发音没有办法进行严格的评判。随着计算机多媒体技术的发展,可以使用计算机通过评测系统进行计算机辅助语言学习。而目前汉语普通话测试主要也是基于计算机辅助语言学习(ComputerAssistedLanguageLearning,简称CALL)[1]进行的。本文从这个角度出发,首先获取模型设计的基频数据,设计并实现K-GMM模型,并初步分析这一技术应用于计算机辅助语言学习中的价值。

二、基于K-GMM模型的

一种汉语声调识别技术

汉语是声调语言,其单音节的声调模式共有五种,分别为阴平、阳平、上声、去声和轻声,[2]本文主要针对前四种声调进行分析。汉语最重要的信息是通过声调的基频保持的,它是提高语音生动性的重要因素。因此声调识别在汉语识别中十分关键,必须选用准确有效的方式方法提取基频,并对其进行必要的处理。必要的处理手段主要有插值平滑处理、重采样处理以及归一化处理。[3]通过这些必要的处理后,再通过建立一个识别模型才能够实现声调的识别。识别模型的好坏在一定程度上决定了识别率的高低,因此本文为了实现非特定人声调识别而建立了K-GMM模型。

(一)基频提取算法原理

为了保证提取基频的准确性,同时又要满足算法的复杂度较低以及算法的计算量小的要求,可选择自相关算法提取基频,并对基频数据进行后处理,得到一个较好的基频数据输入模型。算法框图如图1所示。

假定随时间的变化语音信号的特性变化缓慢,因此可以将信号分割成一些短段(分帧)再加以处理,这些短段可以看作是来自一个持续声音片断,这个持续声音片段具有固定特性。算法中就是将语音信号看作是短时平稳过程,对其短段进行语音信号处理的。

图1基频提取算法框图

1.语音信号的预处理

通过对语音的研究表明:[4]成年男性、成年女性基频范围分别在70~250Hz、160~400Hz,而儿童的基频范围最高可达500Hz。因此选用60~900Hz的带通滤波器对语音信号进行滤波,完成预处理,这样可以剔除一部分非语音音频的基频数据。

2.自相关计算

使用信号{x(n)}的短时自相关函数计算,获取基频数据,如公式(1)所示。

Rn(k)=x(m)·x(m+k)·hk(n-m)(1)

其中:hk(n-m)=w(n)·w(n-k)

Rn(k)就是自相关计算所得的基频结果,它是信号在第n个样本附近截取的一段信号。

3.插值平滑

通过自相关计算得到的基频,存在数据丢失的情况,这主要是因为一些浊音部分的基频为0,导致基频序列不连续。针对这一情况需要进行丢失数据的处理。通常可采用插值平滑的方式进行。这里采用基于拉格朗日(Lagrange插值)插值的插值平滑处理,如公式(2)所示。

Pn(x)=lk(x)yk=j≠0(2)

根据实际应用模型可知,每个汉字的基频曲线应该是平滑的,字与字之间的基频过渡也应该是平滑的。基于这种思想,结合普通话语音的特点,选取Lagrange插值平滑处理中的值为3。使用Lagrange插值法选取已知点时,选择四个点,断点前后各两个点,其中在断点前要分别选择一个最靠近的已知点和一个与该断点有一定距离的已知点。在断点后也以相同的方法选取已知点,注意选取距离一般不超过10。

采用自相关计算提取的基频,选取n值为3的Lagrange插值进行平滑处理后,如图2所示。通过分析,可以看出平滑后的基频曲线效果较好。

4.重采样处理

为了便于建立识别模型,必须保证每个字或词的特征数相同,因此需要对数据进行重采样处理。重采样的基本步骤如下:

(a)平滑处理前

(b)平滑处理后

图2插值平滑处理前后对比

假设特征维数设定为m维,对应在[0,1]上的点间隔1/(m-1)。再假定在二维坐标系中取n个点,用于对应提取某个字的n个基频数据,二维坐标系中纵坐标为该点对应的基频数据值,横坐标为0到1,其间隔为1/(n-1)。其中mN并且1(m-1)1/(n-1)。

(1)取原始数据的第一个点为重采样的第一个点。

(2)计算重采样的第二个点。根据重采样的第二个点x横坐标为1/(m-1),位于区间[1/(n-1),2/(n-1)],选择线性插值运算在其所在区间上进行插值运算,可得到其对应的重采样数值y

文档评论(0)

151****1898 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档