针对发音质量评测的声学模型优化算法（严可等）..docVIP

下载本文档

31
0
约 14页
2017-01-23 发布于重庆
举报
版权申诉

针对发音质量评测的声学模型优化算法（严可等）..doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

针对发音质量评测的声学模型优化算法（严可等）.

文章编号：1003-0077（2013）01-0098-10 针对发音质量评测的声学模型优化算法严可1，魏思2，戴礼荣1 （1.中国科学技术大学，安徽合肥230027；2.科大讯飞股份有限公司，安徽台肥230088）摘要：在发音质量评测研究中，传统仅用发音标准的数据进行声学建模，难以描述实际测试面临的非标准发音，使得训练与测试的失配在所难免。针对上进问题，该文提出一种利用覆盖各种发音的数据，根据最小化机器分与人工分均方误差准则进行声学模型优化的算法。实验在普通话水平考试现场3 685份数据（其中498测试，3187份训练）上进行。实验表明采用优化算法得到的针对发音质量的评测声学模型相比传统建模方式得到的声学模型有显著的优势。关键词：计算机辅助学习；区分性训练；普通话水平测试；发音质量评测中图分类号：TP391 文献标识码：A Acoustic Model Refining Algorithm for Pronunciation Quality Evaluation YAN Kel，WEI Si2，DAI Lirongl （l. University of Science and Technology of China，Hefei，Anhui 230027，Chlna； 2. USTC iFlytek Co. Ltd，Hefei，Anhui 230088，China） Abstract: Traditional approach uses only the standard-pronounced speech data to build acoustic models, which makes automatic pronunciation systems poor show for accented speech data since the training and test are mismatch. To deal with the problem, this paper presents a novel algorithm that utilizes both standard and accented speech data to optimize acoustic model by minimizing the root mean square error between the manual and the machine scores. Experiments on 3 685 live Putonghua database (498 For test and 3 187 for training) shows that the evaluation acoustic models generated by the proposed method are significantly better than those by traditional approaches. Key words: computer assisted language learning; discriminative training; PSC; pronunciation quality evaluation 1 引言随着计算机科学与信息科学的发展，计算机辅助学习系统（Computer Assisted Language Learning，CALL）走进千家万户，发挥着日益重要的作用。发音质量评测是计算机辅助学习的重要内容，它不仅能显著提升口语学习效率，还可代替教师进行口语考试部分题型的评分，极大缓解了大规模机考实践中教师评分任务繁重及费用居高不下的问题。目前，在文本相关的发音质量评测任务上，如朗读、跟读等，计算机已经接近人工评分水平[1]，并在普通话水平测试、英语学习等任务上得到广泛应用，但性能仍需改进。本文研究属于文本相关的评测，即考生按照指定文本发音，计算机根据发音质量反馈出分数。一般采用自动语音识别（Automatic Speech Recognition，ASR）技术，根据给定文本将语音切分到音素，在此基础上计算能反映发音标准度和流畅度的评分特征，进而给出机器分。在常用的评分特征中，帧规整后验概率[2,3]是目前公认的最能反映发音标准度的度量。另外，人们常用的GOP （Goodness of Pronunciation）算法[4,5]也是在帧规整后验概率理论框架下的简化。声学模型是帧规整后验概率计算的重要依据。由于白动发音质量评测的研究源于语音识别，至今人们仍普遍采用语音识别技术进行声学建模。但语音识别与发音质量评测有着显著不同：语音识别需要包容非标准发音，因此采用标准发音和非标准发