深度学习理论研究..docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
深度学习理论研究.

【王晓刚】深度学习在图像识别中的研究进展与展望 标签: 深度学习机器学习LinJM 2015-06-03 20:37 4728人阅读 评论(2) 收藏 举报算法与理论研究(31) 版权声明:本文为博主原创文章,未经博主允许不得转载。 目录(?)[+] 深度学习是近十年来人工智能领域取得的最重要的突破之一。它在语音识别、自然语言处理、计算机视觉、图像与视频分析、多媒体等诸多领域都取得了巨大成功。本文将重点介绍深度学习在物体识别、物体检测、视频分析的最新研究进展,并探讨其发展趋势。 1. 深度学习发展历史的回顾 现有的深度学习模型属于神经网络。神经网络的历史可追述到上世纪四十年代,曾经在八九十年代流行。神经网络试图通过模拟大脑认知的机理,解决各种机器学习的问题。1986 年Rumelhart,Hinton 和Williams 在《自然》发表了著名的反向传播算法用于训练神经网络[1],直到今天仍被广泛应用。 但是后来由于种种原因,大多数学者在相当长的一段的时间内放弃了神经网络。神经网络有大量的参数,经常发生过拟合问题,即往往在训练集上准确率很高,而在测试集上效果差。这部分归因于当时的训练数据集规模都较小。而且计算资源有限,即便是训练一个较小的网络也需要很长的时间。总体而言,神经网络与其它模型相比并未在识别的准确率上体现出明显的优势,而且难于训练。 因此更多的学者开始采用诸如支持向量机、Boosting、最近邻等分类器。这些分类器可以用具有一个或两个隐含层的神经网络模拟,因此被称作浅层机器学习模型。它们不再模拟大脑的认知机理;相反,针对不同的任务设计不同的系统,并采用不同的手工设计的特征。例如语音识别采用高斯混合模型和隐马尔可夫模型,物体识别采用SIFT 特征,人脸识别采用LBP 特征,行人检测采用HOG特征。 2006 年,Geoffrey Hinton 提出了深度学习。之后深度学习在诸多领域取得了巨大成功,受到广泛关注。神经网络能够重新焕发青春的原因有几个方面。首先是大数据的出现在很大程度上缓解了训练过拟合的问题。例如ImageNet[2]训练集拥有上百万有标注的图像。计算机硬件的飞速发展提供了强大的计算能力,使得训练大规模神经网络成为可能。一片GPU 可以集成上千个核。此外神经网络的模型设计和训练方法都取得了长足的进步。例如,为了改进神经网络的训练,学者提出了非监督和逐层的预训练。它使得在利用反向传播对网络进行全局优化之前,网络参数能达到一个好的起始点,从而训练完成时能达到一个较好的局部极小点。 深度学习在计算机视觉领域最具影响力的突破发生在2012 年,Hinton 的研究小组采用深度学习赢得了ImageNet [2] 图像分类的比赛[3]。ImageNet 是当今计算机视觉领域最具影响力的比赛之一。它的训练和测试样本都来自于互联网图片。训练样本超过百万,任务是将测试样本分成1000 类。自2009 年,包括工业界在内的很多计算机视觉小组都参加了每年一度的比赛,各个小组的方法逐渐趋同。在2012 年的比赛中,排名2 到4 位的小组都采用的是传统的计算机视觉方法,手工设计的特征,他们准确率的差别不超过1%。Hinton 的研究小组是首次参加比赛,深度学习比第二名超出了10%以上。这个结果在计算机视觉领域产生了极大的震动,掀起了深度学习的热潮。 计算机视觉领域另一个重要的挑战是人脸识别。Labeled Faces in the Wild (LFW) [4] 是当今最著名的人脸识别测试集,创建于2007 年。在此之前,人脸识别测试集大多采集于实验室可控的条件下。LFW 从互联网收集了五千多个名人的人脸照片,用于评估人脸识别算法在非可控条件下的性能。这些照片往往具有复杂的光线、表情、姿态、年龄和遮挡等方面的变化。LFW的测试集包含了6000 对人脸图像。其中3000 对是正样本,每对的两张图像属于同一个人;剩下3000 对是负样本,每对的两张图像属于不同的人。随机猜的准确率是50%。有研究表明[5],如果只把不包括头发在内的人脸的中心区域给人看,人眼在LFW 测试集上的识别率是97.53%。如果把整张图像,包括背景和头发给人看,人眼的识别率是99.15%。经典的人脸识别算法Eigenface [6] 在这个测试集上只有60%的识别率。在非深度学习的算法中,最好的识别率是96.33% [7]。目前深度学习可以达到99.47%的识别率[8]。 在学术界收到广泛关注的同时,深度学习也在工业界产生了巨大的影响。在Hinton 的科研小组赢得ImageNet 比赛之后6 个月,谷歌和百度发都布了新的基于图像内容的搜索引擎。他们沿用了Hinton 在ImageNet 竞赛中用的深度学习模型,应用在各自的数据上,发现图像搜索的准确率得到了大幅度的

文档评论(0)

jiulama + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档