基于非均匀MCE准则的DNN关键词检测系统中声学模型的训练.docVIP

下载本文档

3
0
约6.73万字
约 8页
2017-01-13 发布于贵州
举报
版权申诉

　基于非均匀MCE准则的DNN关键词检测系统中声学模型的训练.doc

1、本文档共8页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

　基于非均匀MCE准则的DNN关键词检测系统中声学模型的训练

基于非均匀MCE准则的DNN关键词检测系统中声学模型的训练基于非均匀MCE准则的DNN关键词检测系统中声学模型的训练自XX年以来，深度学习已经成为机器学习的一个重点研究领域，而且现已在许多方面取得了卓越进展。而在语音识别领域，基于深度学习的方法也随即应用而生，特别是在声学建模上，深度神经网络已经能够替代高斯混合模型，并和隐马尔科夫模型结合而推出了DNN-HMM混合模型，在实际应用中取得了很高的识别率[1]。当前的关键词检测系统通常是利用大词汇量连续语音识别器来对搜索语音解码产生关键词假设，再通过将输入语音转换为文本形式；基于此，关键词检测系统就可以利用文本搜索的一些技术，但其与文本搜索不同的则是关键词检测多会利用lattice来表示语音识别结果[2-3]。在语音识别中，常常都是采用不同的区分性训练准则来减小语音识别的词错误率，著名的区分性训练准则主要有MCE[4]、MMI[5]、MPE[6]和MWE[6]。　　在关键词检测任务中，关注的重点只是预定义的关键词是否被检测到。至于与目标关键词无关的词，针对其所获的检测结果却并不重要。Fu等人提出利用非均匀MCE准则，并开展了运用至语音识别中的尝试[7-8]。Weng等人针对传统GMM-HMM模型利用非均匀MCE准则来推进关键词检测的研究，也就是通过在声学建模阶段利用非均匀MCE准则来进行区分性训练，提高了关键词检测系统的性能[9]。研究表本文由论文联盟http://收集整理明，区分性训练可以改善DNN系统的性能[10]。Chen等人在非均匀准则的基础上，利用基于keyword-boosted sMBR准则来训练关键词检测中的DNN-HMM模型，同时再通过在声学模型训练阶段对定义的关键词进行加重来提高模型对关键词的建模能力，结果即取得了%-%的提升[11]。在此，立基于对传统GMM-HMM模型之上，相较于非均匀sMBR准则而言，非均匀MCE准则能够利用AdaBoost来调整关键词权重系数，而非均匀sMBR准则的权重系数却是固定的，因而非均匀MCE准则要比非均匀sMBR准则获得更佳效果[12]。从这一结论出发，本文即将文献[9]中所提出的非均匀MCE准则引入到关键词检测的DNN声学建模阶段，在DNN的参数调整过程中，通过对关键词进行一定程度的侧重来提高DNN-HMM模型对关键词的建模能力。　　1 基于非均匀MCE准则的关键词DNN声学模型训练　　 DNN-HMM声学模型　　DNN-HMM模型利用DNN替代GMM提供LVCSR中HMM状态的后验概率。特别的，表示语句r时刻t的观测变量，DNN对HMM状态s的输出可以通过softmax激活函数来计算：　　　　其中，表示状态s对应的输出层的激活值，识别器通常利用伪对数似然来计算后验概率：　　　　式中，表示从训练数据中计算得到的状态s的先验概率。　　网络训练可以通过利用反向传播算法来优化给定的目标函数而获得实现。更经常地，DNN-HMM声学模型主要利用交叉熵作为目标函数，优化则主要利用随机梯度下降方法来进行处理和操作展开。　　1.基于MCE准则的区分性训练　　区分性训练中，MCE训练准则是常用的一种。该准则以最小化经验错误率为目标[4]，在语音识别中，令Xr为训练集中的R个句子，Wr为句子Xr所对应的标注，W是特定的假设空间，对某个假设W的判别函数可以定义为：　　　　其中，和分别表示声学模型和语言模型得分，表示声学模型因子，误分类度量通常采用：　　　　误分类度量的符号反映了给定声学模型参数，句子的分类正确或者错误程度。经过对上式运用sigmoid函数进行平滑，目标损失函数可以表示为：　　　　其中，表示sigmoid函数，目标函数表示针对训练集的经验损失。　　1.关键词检测的非均匀MCE准则　　非均匀准则的区分性训练是基于某些识别单元可能比其他单元携带更多重要信息的假设[9]，其目标不是最小错误率而是最小错误损失，最小错误率不区分不同的错误。训练过程中的关键词识别错误比非关键词识别错误代价更大。　　在DNN系统中，对某一帧t，定义帧级判别函数为：　　　　其中，i是状态编号，是给定Xr和假设标签W的后验概率，研究中只关注关键词是否在标签或假设中出现，定义错误损失函数为语句r在时刻t的损失，关键词检测的非均匀MCE准则的目标函数为：　　　　为了对公式进行优化，同时与普通的MCE准则进行对比，并推导出非均匀MCE与普通MCE准则优化的不同，进而采取有效的方法来优化非均匀MCE准则的目标函数，即对公式进行求导：　　　　其中，分别表示标注和假设的帧后验概率，将非均匀MCE准则的导数与原来的MCE准则进行对比，