LSTM+CTC详解.docx

下载文档 降价啦

99
0
约1.18万字
约 27页
2017-03-23 发布于重庆
举报
版权申诉
保障服务

LSTM+CTC详解.docx

1、本文档共27页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

LSTMCTC详解

LSTM+CTC详解随着智能硬件的普及，语音交互请求会越来越多。2011年之后，深度学习技术引入到语音识别之后，大家也一直再问一个问题，深度学习技术还能像刚提出时候那样，持续大幅度提升现在的语音识别技术吗？语音技术能够从小规模的使用转向全面产业化成熟吗?如果全面产业化成熟，意味着会有越来越多的语音处理需求，但百度语音技术部的负责人贾磊说，如果线上50%的搜索都由语音完成，而机器耗费还和过去一样，那么没有公司能承担起这样的机器耗费。语音搜索的未来会怎样？技术能持续发展吗？技术的发展能否优化成本结构，同时又保障用户体验？贾磊演讲全文【贾磊】我简单介绍一下长短时记忆模型。这个模型的优势就在于，在传统的网络中引入三个门：输入门，输出门和遗忘门，分别代表对信息长期、远期和近期的记忆和控制。相对于我们传统的CNN和DNN模型，它的好处是能够记录轨迹的变化。这个模型已经提出来很久了，本身并不是近期的创新，但要把它应用在工业里，是有很多困难和现实问题的。为了把模型应用在产品上，我们提出了一套CNN+7DNN+2LSTM的结构。我当时提出这个结构，是专门在西北工业大学汇报过的，Google当时没有论文。Google 当初提出2层LSTM，在我们的验证中，如果是对于状态建模，那么需要比较 Deep的模型，因为这是比较短的瞬时状态，它的轨迹并不清晰。那么如果采取这种深层结构，两三轮的迭代，数据就可以获得收敛，有很好的这个效果。而如果只用2层的LSTM，随着数据量的增加，这个提升会很慢。而且最终的收益，这个模型的效果好。Google 最后的论文也证明了这一点，这样的模型结构，对于状态建模是比较好的。然后我们在LSTM的模型上，主要解决了海量数据的训练和效率问题。因为LSTM不是今天的重点，今天主要讲CTC，和语音识别对传统框架的改变。因此我就跳过这一部分。LSTM的训练是有困难的，因为很容易发散。这是一个重要的技术，Google提出的LSTMP，它在传统的LSTM模型之上，引入了一个反馈层。这个反馈层对工业界弥足珍贵，因为这个反馈层会使运算的计算量大幅下降，它可以把反馈的，比如说你这个神经元节点是1024，他反馈的可以采用256，这样整个计算量会大幅压缩。因此我向大家推荐这个技术，基本上应该是工业界和学术界的最新技术，除了产品效果之外，这个的精度更高，我对这个的猜想是因为LSTM的输出层很大，它有两万多个节点，在状态建模的时候。因此为了和外部的匹配，通常的就是C代表的LSTM的记忆单元，这个单元的维度会比较高，一般采用的是1024，也可以采用2048。当采用1024的时候，其实整个网络已经非常复杂了。这个属于反馈层，可以把参数大幅的压低，从而导致你可以鲁棒稳定的去训练这个网络。那么有人反映，带有反馈层之后训练会不稳定。我的感觉是这种反馈即使有不稳定，大家要去钻研，因为它是必不可少的。工业产品中如果不带这个反馈，计算量是难以承受的。这是 Google 对 LSTM 的贡献，我向大家推荐这个技术。然后讲BPTT算法，BPTT算法是最基本的训练神经网络的算法，就是误差反向传播。对于R模型或者LSTM模型它是有轨迹的，因此它是根据轨迹的误差反向传播。它有两种方法。第一种方法是逐帧递推的，一帧推下一帧，再下一帧误差规避以后再向前传。第二种是所有的误差同步向前传，传固定的步数。这两种算法其实在BPTT的理论都是存在的。后面这种实际上就是把误差截断，不让误差从头传到尾。第一种就是直接从头传到尾。两种基本的算法，大家可以了解一下基本的理论。这是我们多层的LSTM的结构，下面是我们的CNN层，上面是我们的DNN全连接层，这是我们的LSTM两层。这个节点是采用了1024，这个维数的大小，线上的工业产品是可以用的。所以大家的研究可以照着这个去做，如果你的体积过大或者过小，对于工业而言可能就是研究跟现实之间就会有不匹配。这解释了网络能够提升系统的根本原因：第一，多层结构对神经网络而言总是有价值的，因为多层意味着输入的扰动在输出总数会衰减。这个我觉得微软的于老师是有一篇论文去讲这个。第二个状态建模，状态的轨迹并不是很清晰，很短、很sharp的一个建模单元。这个时候如果完全采用LSTM去建模的话，造成的结果就是LSTM是轨迹比较强，但是它跟瞬态的模拟能力不够，因此结合瞬态跟轨迹这样的一个模型结构，在我们现实产品中发现是稳定的，而且总是有好的效果。那我们和双层的LSTM做对比，谷歌当年刚开始提出双层的LSTM胜过CNN，有这样一篇论文，大家可以去找，我们做了实验，实际上我们达到的是negative的结果。在2000小时中，跟谷歌的实验一样，对等。双层LSTM的效果胜过了传统的CNN技术。但如果把数据量增加到一万小时的时候，这种十层的CNN会胜过双层的LSTM，节点是1024，大家