基于LSTMP语音识别方法的研究与改进.docVIP

下载本文档

4
0
约3.78千字
约 4页
2021-01-08 发布于四川
举报
版权申诉

基于LSTMP语音识别方法的研究与改进.doc

1、本文档共4页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

精品文档，助力人生，欢迎关注小编！基于LSTMP语音识别方法的研究与改进打开文本图片集摘要：当前LSTMP是基于LSTM增加了Projection层，并将这个层连接到LSTM的输入，通过循环连接投影层，对高维度的信息進行降维，减小细胞单元的维度，从而减小相关参数矩阵的参数数目。但LSTMP网络结构的缺点在于Projection层的输出需要完成两个功能，既需要充当历史信息，又需要作为下一层的输入。针对以上问题，笔者提出了一种Re-dimension的方法，让网络自己选择一部分参数作为历史信息，并获得了一定程度的提升。采用该方法后，能提高语音识别率相对4-5%左右。关键词：长短时记忆LSTM;降维;语音识别 Abstract：Currently，LSTMP is based on LSTM，which adds a project layer and connects this layer to the input of LSTM. By circularly connecting the projection layer，it reduces the dimension of high-dimensional information，reduces the dimension of cell units，and thus reduces the number of parameters of the related parameter matrix. However，the disadvantage of LSTMP network structure is that the output of the Projection layer needs to complete two functions，which need to act as both historical information and input of the next layer. In view of the above problems，the author proposes a Re-dimension method，which allows the network to select some parameters as historical information，and has achieved a certain degree of improvement. With this method，the speech recognition rate can be improved by about 4-5%. Keywords：LSTM for long-term and short-term memory;dimensionality reduction;speech recognition 0 引言随着移动互联网的兴起，语音识别技术正在走进人们的生活，这给人们的工作、学习和生活提供了一种快捷识别的方式。近年来，基于深度全连接前馈神经网络的声学模型已被证明是语音识别的成功范例。最近，将循环神经网络作为一种强大的模型进行了探索，循环神经网络在不同的顺序数据建模任务中取得了最先进的性能，例如：手写字符识别，机器翻译以及语音识别[1]。基于长短期存储器（Long Short-Term Memory，LSTM）的存储器块通过输入门[2]，输出门、遗忘门和存储器单元的集成来运行。通过该LSTM，循环神经网络可以利用自学习机制用于远程时间上下文，这有助于改善语音识别中的噪声鲁棒性[3]，其中较长窗口内的一部分帧被噪声掩蔽。已经实施LSTM网络以在不同的语音识别任务中实现竞争性能，提出了具有各种架构的LSTM网络的一些扩展以改善语音识别性能。LSTM循环投影作为统一框架引入，通过添加基于LSTM单元输出的循环信息的前馈层并进一步将信息投影到输出层。同时，通过LSTM单元细胞之后或之前安排全连接前馈神经网络来调整LSTM结构。LSTM架构是一种非常特殊的循环神经网络，用于对语音等顺序数据进行建模。它最近被广泛用于大规模声学模型估计，并且比许多其他神经网络表现更好。但是由于LSTM的运行速度很慢，所以有人提出了LSTMP网络结构。 LSTMP是LSTM with recurrent projection layer的简称，是在原有LSTM基础之上增加了一个Projection层，并将这个层连接到LSTM的输入，Projection层的加入是为了减少计算量，它的作用和全连接层很像，就是对输出向量做一下压缩，从而能把高维度的信息降维，减小细胞单元的维度，以减小相关参数矩阵的参数