汉语语音水平评价方法研究.pdfVIP

下载本文档

5
0
约8.85千字
约 4页
2017-09-13 发布于重庆
举报
版权申诉

汉语语音水平评价方法研究.pdf

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第五届全国人机语音通讯学术会议第五届全国人机语音通讯学术会议(NCMMSC’98)，，286-289 ，，98年年7月月26~31 日，哈尔滨日，哈尔滨第五届全国人机语音通讯学术会议第五届全国人机语音通讯学术会议，，，，年年月月日，哈尔滨日，哈尔滨本文获本文获NCMMSC’98优秀论文二等奖优秀论文二等奖本文获本文获优秀论文二等奖优秀论文二等奖汉语语音水平评价方法研究汉语语音水平评价方法研究汉语语音水平评价方法研究汉语语音水平评价方法研究徐明星宋战江郑方吴文虎 (北京清华大学计算机科学与技术系 100084) 摘要 : 汉语语音水平评价是汉语语音识别的一个分支，它具有广泛的应用前景。本文以 CDCPM模型为基础，针对模型的特性，提出了两种语音水平评价方法——直接评价方法和间接评价方法，并把它们综合应用于一个实际的汉语语音水平评价系统之中，取得了很好的实验结果。结果表明，本文提出的语音水平评价方法是可行的和有效的。关键词 : 语音水平评价，CDCPM模型，CDN分布一、引言汉语语音水平评价是汉语语音识别的一个分支，其主要目的是利用计算机对测试人员输入的汉语语音的规范程度给出一个比较客观的评价。这可以分为指定文本的评价和不定文本的评价两个大类。由于中国的人口众多，地域宽广，有许多不同的方言，而且各地的汉语语音普通话教学的水平也存在着很大的差异，这种现状显然很不利于普通话的推广，不利于人与人之间的语言交流；另外，鉴于中国的国际地位日益提高，中国市场潜力巨大，越来越多的外国人希望掌握汉语的发音技巧，因此，依据汉语语音识别的基本原理，利用计算机来帮助校正/提高汉语规范程度，具有十分重要的现实意义和广泛的应用前景。本文对汉语语音水平评价方法进行了初步探索和研究。本文组织结构如下：第二部分给出了直接评价方法；第三部分则提出了间接评价方法，第四部分针对两种方法的不同特性，提出了综合利用的形式和方法；最后给出了评价系统的测试结果。二、直接评价方法 1、基本思路1、基本思路 11、基本思路、基本思路在对汉语语音规范程度进行评价的时候，一种自然的想法是：将待评价的原始输入语音同标准的语音模型进行直接匹配比较，根据它们的吻合程度，得到对待测语音的评价得分。由于这种评价方法是直接进行的，只涉及到原始输入语音所对应的标准模型，所以我们称之为直接评价方法。该方法大致的工作流程示意图如下所示：待测语音信号特征提取匹配计算得分待测语音信息模型准备图1 直接评价方法工作流程示意图其中， “待测语音信号”是指用户按照要求输入的语音采样数据， “待测语音信息”是指应用指定的输入语音的汉语音节信息， “特征提取” 的功能是根据模型的要求，对输入的原始语音进行特征提取计算，如计算信号的能量、过零率、基音周期、LPC-CEP[1]等参数，一般在特征提取的时候需对原始语音进行分帧处理。 “模型准备”的功能是依据待测原始语音的音节信息，将需要的音节模型参数提取出来，为下一步的匹配计算做好准备。 “匹配计算 ”的功能是按照模型的特点，对待测的原始语音的特征参数进行处理，得到输入语音同规范语音之间的匹配程度，从而得到评价分数。 22、、标准模型标准模型的的建立建立 22、、标准模型标准模型的的建立建立语音标准模型的建立方法很多，现在最为常见的是基于HMM[1]思想的语音模型，如 DHMM[2]、CHMM[3]、SCHMM[4]等，还有一些是标准HMM的修正改进型，也可以拿来使用。在本文建立的系统中，标准语音模型所采用的是CDCPM[5]模型，它是HMM的一种简化模型，没有状态转移矩阵A，因为状态的转移是从左至右直接进行的，而且在状态发生转移时，状态不允许进行跨越转移。为描述CDCPM模型的各个状态，我们引入了若干子状态，以EMM[6] （嵌入式多模板）的方式组织起来，各个子状态则用一个CDN分布 [6]来表征，这些CDN分布的参数就组成了整个语音模型