深度学习的研究深度习的研究.docVIP

下载本文档

14
0
约8.57千字
约 6页
2017-01-09 发布于贵州
举报
版权申诉

深度学习的研究深度习的研究.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

深度学习的研究深度习的研究

深度学习的研究 1、定义和背景：? ? 1.1?深度学习（DL）有各种相近的定义或者高层次描述? 自2006年以来，深度学习（deep?learning）（也通常叫做深层结构学习或分层学习）已经成为机器学习领域的一个新兴领域（Hinton?et?al.,?2006;?Bengio,?2009?）.在过去几年中，深度学习技术的发展已经对信号和信息过程领域产生广泛的影响，并将继续影响到机器学习和人工智能的其它关键领域；参见综述文章（Bengio?et?al.,?2013;?Hinton?et?al.,?2012;?Yu?and?Deng,?2011;?Deng,?2011;?Arel?et?al.,?2010?）.最近，已有一系列的致力于关于深度学习以及应用的研讨会和特别会议。包括:?? 这些研究团队在DL的各种不同应用中取得经验性的成功，如计算机视觉、语音识别、语音搜索、语音识别、语音会话和图像特征编码、语义分类、手写识别话语、音频处理、信息检索、机器人学、甚至在分析可能导致新药的分子方面等等。许多优秀的经常更新教程、传统机器学习和信号处理技术探索仅含单层非线性变换的浅层学习结构。浅层模型的一个共性是仅含单个将原始输入信号转换到特定问题空间特征的简单结构。典型的浅层学习结构包括传统隐马尔可夫模型（HMM）、条件随机场（CRFs）、最大熵模型（MaxEnt）、支持向量机（SVM）、核回归及仅含单隐层的多层感知器（MLP）等。例如，SVM用包含一层（使用核技巧）或者零个特征转换层的浅层模式分离模型。（最近已有将核方法与DL结合的新方法。如，Cho?and?Saul,?2009;?Deng?et?al.,?2012;?Vinyals?et?al.,?2012）。浅层结构的局限性在于有限的样本和计算单元情况下对复杂函数的表示能力有限，针对复杂分类问题其泛化能力受到一定制约。?? 神经科学研究表明，人的视觉系统的信息处理是分级的。人类感知系统这种明确的层次结构极大地降低了视觉系统处理的数据量，并保留了物体有用的结构信息。有理由相信，对于要提取具有潜在复杂结构规则的自然图像、视频、语音和音乐等结构丰富数据，深度学习能够获取其本质特征。受大脑结构分层次启发，神经网络研究人员一直致力于多层神经网络的研究。?? 历史上，深层学习的概念起源于神经网络的研究。带有多隐层的前馈神经网络或者多层感知器通常被成为深层神经网络（DNNs），DNNs就是深层构架的一个很好的例子。BP算法作为传统训练多层网络的典型算法，实际上对于仅含几层网络，该训练方法就已很不理想（参见?(Bengio,?2009;?Glorot?and?Bengio,?2010).?在学习中，一个主要的困难源于深度网络的非凸目标函数的局部极小点普遍存在。反向传播是基于局部梯度下降，通常随机选取初始点。使用批处理BP算法通常会陷入局部极小点，而且随着网络深度的增加，这种现象更加严重。此原因在一定程度上阻碍了深度学习的发展，并将大多数机器学习和信号处理研究从神经网络转移到相对较容易训练的浅层学习结构。?? 经验上，有3种技术可以处理深层模型的优化问题：1.大量的隐藏的单元,2.更好的学习算法,3.以及更好的参数初始化技术。?? 使用带有大量神经元的DNN可以大大提高建模能力。由于使用带有大量神经元的DNN得到较差局部最优值的可能性要小于使用少量神经元的网络，即使参数学习陷入局部最优，DNN仍然可以很好的执行。但是，在训练过程中使用深而广的神经网络，对计算能力的需求要求很大。? 更好的算法也有助于了DNNs的训练。例如，现在随机BP算法已经代替了批处理BP算法用来训练DNNs。部分原因是由于，当训练是单学习器和大训练集上进行时，随机梯度下降(SGD)算法是最有效的算法(Bottou?and?LeCun,2004)。但更重要的是SGD算法可以经常跳出局部最优。?其它算法，如?Hessian?free?(Martens?2010)或Krylov子空间方法(Vinyals?and?Povey?2011)有类似的能力。?? 很明显，对于高度非凸的DNN学习的优化问题，更好的参数初始化技术将导致更好的模型.然而，如何高效的初始化DNN的参数却不是很显然的事情。最近，学者们给出很好的结果(Hinton?et?al.?2006;?Hinton?and?Salakhutdinov,?2006;?Bengio,? 2009;Vincent?et?al.,?2010;?Deng?et?al.,?2010;?Dahl?et?al.,?2010,?2012;?Seide?et?al.?2011).?? 最著名的DNN参数初始化技术就是无监督预训练（pre-training）技术的提出(Hinton?et?