基于汉语声学模型的维语语音识别系统-清华大学信息技术研究院语音.PDF

下载文档 降价啦

5
0
约1.25万字
约 9页
2019-04-13 发布于天津
举报
版权申诉
保障服务

基于汉语声学模型的维语语音识别系统-清华大学信息技术研究院语音.PDF

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于汉语声学模型的维语语音识别系统-清华大学信息技术研究院语音

基于汉语声学模型的维语语音识别系统 1 背景介绍目前，语音识别市场由国外公司和机构占据了很大份额，系统以英语为主，我国紧跟语音识别领域的最新研究成果并基本与之保持同步。汉语语音技术的广泛应用，使大家看到语音技术的广大市场前景。在新疆，维吾尔族是自治区的自治民族，少数民族尤其是维吾尔族在新疆人口中占有很大的比例。新疆地区官方语音是汉语和维语，由于维吾尔语语音特性，维、汉语之间的语言差异很大，正是这种少数民族的构成、人口与语言文字状况，使少数民族语言文字信息技术的开发与应用成为新疆信息化建设当中不可或缺的一个重要方面，也是国家信息化的基础之一。而研究维吾尔语的语音识别系统是新疆信息化建设的内容之一。具有重大的研究意义。到目前为止，国外无一机构（包括微软、IBM 等跨国公司）从事维语信息处理及维语语音识别系统的开发，所以目前国际上在此领域的研发也是一片空白。同时，新疆地区的哈萨克民族和新疆周边的中亚国家，他们的语言文字和维吾尔语十分相似，维吾尔语的语音识别技术不仅在新疆有很广的应用前景，也能为这些语言的相关研究提供技术参考。语音识别系统广泛的应用市场和维吾尔族用户所占比例表明维吾尔文语音识别系统研究开发工作的必要性，其市场也是不容忽视的。 2 问题描述语音识别系统本身具有快捷、方便、智能、适用设备和人群广泛等特点，而维语语音识别系统恰能弥补国内外在维语信息处理这一块的技术空白。不仅能给新疆地区语音研究领域建立坚固的基础，还能给少数民族用户带去高新技术智能产品。然而，研发与汉语发音差异巨大的维语语音识别系统带来了一些问题。首先，对于发音变化的比较好的解决方法是针对不同的语言训练不同的声学模型，但是，由于维语属于少数民族语言，数据的采集不易，导致训练数据有限，不能完全覆盖维语的特点，这会引发训练出的声学模型与实际发音不匹配的问题；第二，国内外解决目标语言训练样本短缺的方法虽然繁多，但是要么需要经过较长时间的训练，要么训练不充分，都没法从根本上提升系统效率，没有一种统一的、高效的方法。最后，在效果较好的基于原有大词汇量连续语音识别系统声学模型基础上，训练新语音识别系统的方法里面，没有一个合适的评价方法指出构造的模型层次结构，模型层次结构构造具有随机性。这些环环相扣的问题都给具有稀疏训练数据的维语语音识别系统开发带来了阻碍。本发明提出一种基于汉语声学模型的维语语音识别系统，在基于汉语的基础上解决维语语料不足的问题，并且利用原始汉语模型层次架构重构的方法来加快维语声学模型的训练速度，还根据最终识别率的高低制定了汉语声学模型层次选择的评估方式，有效地解决了上述三个难点。 3 发明要点本发明提出一种基于汉语声学模型的维语语音识别系统，来解决维语语音训练数据短缺的问题，并且通过对汉语声学模型层次重构的方法解决了维语声学模型重训练过程中训练速度过慢，训练时间过长的问题，最后，通过一种评估方法解决了基础汉语声学模型层次选择随意性的问题。具体而言，该发明包含如下主要内容：（1）基于汉语声学模型的维语声学模型自适应方法。语音识别系统中声学模型的建立需要通过大量的训练来拟合语音信号特征的连续概率分布，无论是传统的混合高斯模型(Gaussian Mixture Model, GMM) ，还是现在流行的深度神经网络(Deep neural network, DNN)都需要充分的语料用于训练，否则稀疏的数据无法准确表征语音信号的特征，造成声学模型失配。本发明提出利用DNN 多层次的特点，将训练充分的汉语DNN 模型作为基础模型，以此训练维语 DNN 模型，使数据稀疏的维语声学模型自适应，有效降低了维语声学模型的失配度。（2 ）基于汉语声学模型的层次重构方法。在解决维语训练数据稀疏问题时，提到使用汉语 DNN 模型作为基础来解决维语声学模型失配，但汉语 DNN 模型作为基础如何使用，也是一大难点。若将整个汉语和维语DNN 模型都结合进来，则会造成DNN 模型结构过于庞大，训练时间过长，训练速度过慢；若只结合部分汉语和维语 DNN 模型，则可能无法实现完全信息共享或者模型结构太过稳定，从而导致系统识别率提升不大。针对这一问题，文发明提出基于汉语声学模型的层次重构方法，将声学模型自适应方法中的模型层次简单组合变成层次重构，可以有效提高语音信息共享，提高维语语音识别系统的识别率。（3 ）基于字错误率的层次选择方法。