计算机辅助语言学习中基于K—GMM模型的一种汉语声调识别技术及其应用研究.docVIP

下载本文档

1
0
约 5页
2017-05-11 发布于广东
举报
版权申诉

计算机辅助语言学习中基于K—GMM模型的一种汉语声调识别技术及其应用研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

计算机辅助语言学习中基于K—GMM模型的一种汉语声调识别技术及其应用研究.doc

　　计算机辅助语言学习中基于K—GMM模型的一种汉语声调识别技术及其应用研究计算机辅助语言学习中基于KGMM模型的一种汉语声调识别技术及其应用研究　　一、引言　　汉语是我国的语言，其中官方通用语言为普通话，学习汉语主要是通过老师上课教、学生课后根据书本上的汉语拼音学习的方式进行。这种方法对教师的依赖性过大，虽然教师通过普通话测试，但是仍然有一部分教师存在口音问题，同时这种学习方式对学生的普通话发音没有办法进行严格的评判。随着计算机多媒体技术的发展，可以使用计算机通过评测系统进行计算机辅助语言学习。而目前汉语普通话测试主要也是基于计算机辅助语言学习（puter Assisted Language Learning ，简称CALL）[1]进行的。本文从这个角度出发，首先获取模型设计的基频数据，设计并实现K-GMM模型，并初步分析这一技术应用于计算机辅助语言学习中的价值。　　二、基于K-GMM模型的　　一种汉语声调识别技术　　汉语是声调语言，其单音节的声调模式共有五种，分别为阴平、阳平、上声、去声和轻声，[2]本文主要针对前四种声调进行分析。汉语最重要的信息是通过声调的基频保持的，它是提高语音生动性的重要因素。因此声调识别在汉语识别中十分关键，必须选用准确有效的方式方法提取基频，并对其进行必要的处理。必要的处理手段主要有插值平滑处理、重采样处理以及归一化处理。[3]通过这些必要的处理后，再通过建立一个识别模型才能够实现声调的识别。识别模型的好坏在一定程度上决定了识别率的高低，因此本文为了实现非特定人声调识别而建立了K-GMM模型。　　（一）基频提取算法原理　　为了保证提取基频的准确性，同时又要满足算法的复杂度较低以及算法的计算量小的要求，可选择自相关算法提取基频，并对基频数据进行后处理，得到一个较好的基频数据输入模型。算法框图如图1所示。　　假定随时间的变化语音信号的特性变化缓慢，因此可以将信号分割成一些短段（分帧）再加以处理，这些短段可以看作是来自一个持续声音片断，这个持续声音片段具有固定特性。算法中就是将语音信号看作是短时平稳过程，对其短段进行语音信号处理的。　　图1 基频提取算法框图本文由.L.收集整理　　1. 语音信号的预处理　　通过对语音的研究表明：[4]成年男性、成年女性基频范围分别在70～250Hz、160～400Hz，而儿童的基频范围最高可达500Hz。因此选用60～900Hz的带通滤波器对语音信号进行滤波，完成预处理，这样可以剔除一部分非语音音频的基频数据。　　2. 自相关计算　　使用信号{x（n）}的短时自相关函数计算，获取基频数据，如公式（1）所示。　　Rn（k）=x（m）x（m+k）hk（n-m）（1）　　其中：hk（n-m）=iddot;维，对应在[0，1]上的点间隔1/（m-1）。再假定在二维坐标系中取n个点，用于对应提取某个字的n个基频数据，二维坐标系中纵坐标为该点对应的基频数据值，横坐标为0到1，其间隔为1/（n-1）。其中mlt;N并且1 （m-1）gt;1/（n-1）。　　（1）取原始数据的第一个点为重采样的第一个点。　　（2）计算重采样的第二个点。根据重采样的第二个点x横坐标为1/（m-1），位于区间[1/（n-1），2/（n-1）]，选择线性插值运算在其所在区间上进行插值运算，可得到其对应的重采样数值y，如公式（3）所示：　　y=（f2-f1）（n-1）x+2f1-f2 （3）　　这里假设点1/（n-1）对应的原始基频为f1，点2/（n-1）对应的原始基频为f2。　　（3）依次选取不同的横坐标点x，可求出重采样的所有数据y。　　5. 归一化处理　　提取的基频数据经过以上处理后效果有一定的改善，但针对汉语声调自身的特点，为了选择一种较有效的识别模型，必须先分析说话人的声调分布情况。[5]由于每个人的发音特点和口音各不相同，相同字的基频曲线有很大差异，但是每个人的整体频域范围差异却不显著。因此，可以通过归一化处理让识别模型能够处理大部分人的语音，即将所有的基频数据处理到同一个数量区域内。基于此，采用归一化公式（4）计算：　　=（f-fmin）/（fmax-fmin）（4）　　式中fmax表示单个说话人基频上限的90%，fmin表示单个说话人基频下限的1.1倍。由于获取当前说话人的基频上下限很困难，因此fmax和fmin的值使用当前语音样本频率的上限和下限值来代替。　　要注意的是经过插值平滑的基频数据需要取对数运算后才可以进行归一化。这主要是由于录音时可能出现发音抖动，使得某个频率值过大或过小，因此要剔除频率过高点或过低点。　　（二）基于K- GMM的声调识别　　1. K-GMM模型设计　　对于特定人的识别，K-means聚类算法[6]