LSTM+CTC详解.docx

  1. 1、本文档共27页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
LSTMCTC详解

LSTM+CTC详解随着智能硬件的普及,语音交互请求会越来越多。2011年之后,深度学习技术引入到语音识别之后,大家也一直再问一个问题,深度学习技术还能像刚提出时候那样,持续大幅度提升现在的语音识别技术吗?语音技术能够从小规模的使用转向全面产业化成熟吗?如果全面产业化成熟,意味着会有越来越多的语音处理需求,但百度语音技术部的负责人贾磊说,如果线上50%的搜索都由语音完成,而机器耗费还和过去一样,那么没有公司能承担起这样的机器耗费。语音搜索的未来会怎样?技术能持续发展吗?技术的发展能否优化成本结构,同时又保障用户体验?贾磊演讲全文【贾磊】我简单介绍一下长短时记忆模型。这个模型的优势就在于,在传统的网络中引入三个门:输入门,输出门和遗忘门,分别代表对信息长期、远期和近期的记忆和控制。相对于我们传统的CNN和DNN模型,它的好处是能够记录轨迹的变化。这个模型已经提出来很久了,本身并不是近期的创新,但要把它应用在工业里,是有很多困难和现实问题的。为了把模型应用在产品上,我们提出了一套CNN+7DNN+2LSTM的结构。我当时提出这个结构,是专门在西北工业大学汇报过的,Google当时没有论文。Google 当初提出2层LSTM,在我们的验证中,如果是对于状态建模,那么需要比较 Deep的模型,因为这是比较短的瞬时状态,它的轨迹并不清晰。那么如果采取这种深层结构,两三轮的迭代,数据就可以获得收敛,有很好的这个效果。而如果只用2层的LSTM,随着数据量的增加,这个提升会很慢。而且最终的收益,这个模型的效果好。Google 最后的论文也证明了这一点,这样的模型结构,对于状态建模是比较好的。然后我们在LSTM的模型上,主要解决了海量数据的训练和效率问题。因为LSTM不是今天的重点,今天主要讲CTC,和语音识别对传统框架的改变。因此我就跳过这一部分。LSTM的训练是有困难的,因为很容易发散。这是一个重要的技术,Google提出的LSTMP,它在传统的LSTM模型之上,引入了一个反馈层。这个反馈层对工业界弥足珍贵,因为这个反馈层会使运算的计算量大幅下降,它可以把反馈的,比如说你这个神经元节点是1024,他反馈的可以采用256,这样整个计算量会大幅压缩。因此我向大家推荐这个技术,基本上应该是工业界和学术界的最新技术,除了产品效果之外,这个的精度更高,我对这个的猜想是因为LSTM的输出层很大,它有两万多个节点,在状态建模的时候。因此为了和外部的匹配,通常的就是C代表的LSTM的记忆单元,这个单元的维度会比较高,一般采用的是1024,也可以采用2048。当采用1024的时候,其实整个网络已经非常复杂了。这个属于反馈层,可以把参数大幅的压低,从而导致你可以鲁棒稳定的去训练这个网络。那么有人反映,带有反馈层之后训练会不稳定。我的感觉是这种反馈即使有不稳定,大家要去钻研,因为它是必不可少的。工业产品中如果不带这个反馈,计算量是难以承受的。这是 Google 对 LSTM 的贡献,我向大家推荐这个技术。然后讲BPTT算法,BPTT算法是最基本的训练神经网络的算法,就是误差反向传播。对于R模型或者LSTM模型它是有轨迹的,因此它是根据轨迹的误差反向传播。它有两种方法。第一种方法是逐帧递推的,一帧推下一帧,再下一帧误差规避以后再向前传。第二种是所有的误差同步向前传,传固定的步数。这两种算法其实在BPTT的理论都是存在的。后面这种实际上就是把误差截断,不让误差从头传到尾。第一种就是直接从头传到尾。两种基本的算法,大家可以了解一下基本的理论。这是我们多层的LSTM的结构,下面是我们的CNN层,上面是我们的DNN全连接层,这是我们的LSTM两层。这个节点是采用了1024,这个维数的大小,线上的工业产品是可以用的。所以大家的研究可以照着这个去做,如果你的体积过大或者过小,对于工业而言可能就是研究跟现实之间就会有不匹配。这解释了网络能够提升系统的根本原因:第一,多层结构对神经网络而言总是有价值的,因为多层意味着输入的扰动在输出总数会衰减。这个我觉得微软的于老师是有一篇论文去讲这个。第二个状态建模,状态的轨迹并不是很清晰,很短、很sharp的一个建模单元。这个时候如果完全采用LSTM去建模的话,造成的结果就是LSTM是轨迹比较强,但是它跟瞬态的模拟能力不够,因此结合瞬态跟轨迹这样的一个模型结构,在我们现实产品中发现是稳定的,而且总是有好的效果。那我们和双层的LSTM做对比,谷歌当年刚开始提出双层的LSTM胜过CNN,有这样一篇论文,大家可以去找,我们做了实验,实际上我们达到的是negative的结果。在2000小时中,跟谷歌的实验一样,对等。双层LSTM的效果胜过了传统的CNN技术。但如果把数据量增加到一万小时的时候,这种十层的CNN会胜过双层的LSTM,节点是1024,大家

文档评论(0)

haihang2017 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档