- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
现代电子系统设计论文
卷积神经网络在计算机视觉领域的发展卷积神经网络作为类脑计算领域的一个重要研究成果,已经广泛应用到计算机视觉、自然语言处理、信息检索、语音识别、语义理解等多个领域。卷积神经网络以原始数据作为输入,再从大量训练数据中学习特征,最终达到分类或者识别的功能。经过长时间的研究,如今的卷积神经网络可以用局部连接、权值共享等操作来降低网络复杂度,减少训练参数的数目,使模型对平移、扭曲、缩放图片的识别具有一定的不变性。目前,深度卷积神经网络主要是通过增加网络的层数,使用更大规模的训练数据集,或者改进现有神经网络的网络结构及训练学习算法等方法,来提高神经网络的性能,进而模拟人类视觉系统,使机器获得“抽象概念”的能力。目前深度卷积神经网络在图像分类、目标检测、人脸识别、行人再识别等多个计算机视觉任务中都取得了巨大成功。本文的主要内容是回顾卷积神经网络的发展历史。重点从增加网络层数、增加数据集规模、以及使用数据扩增技术三个方面介绍卷积神经网络的代表性成果,并展示各种技术方法对于图像分类精度的提升效果。卷积神经网络的发展从二十世纪四十年代开始,人工神经网络领域已提出了上百种的神经网络模型,其中具有代表性的网络包括感知机、反向传播网络、自组织映射网络、Hopfield 网络、玻尔兹曼机、适应谐振理论等,这些网络在手写体识别、语音识别、图像识别和自然语音处理等领域取得了成功的应用。目前,卷积神经网络(Convolutional NeuralNetworks, CNN)得到了广泛应用,它是首个真正被成功训练的深层神经网络。该网络的设计灵感来源于Hubel和Wiesel在1962年提出的高级动物视觉系统的认知机理模型。该模型提出高级动物视觉神经网络由简单细胞和复杂细胞构成,神经网络底层的简单细胞的感受野只对应视网膜的某个特定区域,并只对该区域中特定方向的边界线产生反应。复杂细胞通过对特定取向性的简单细胞进行聚类,拥有较大感受野,并获得具有一定不变性的特征。上层简单细胞对共生概率较高的复杂细胞进行聚类,产生更为复杂的边界特征。通过简单细胞和复杂细胞的逐层交替出现,视觉神经网络获得了提取高度抽象性及不变性图像特征的能力。1984 年日本学者 Fukushima 在 Hubel 和 Wiesel的感受野概念基础上提出了神经认知机(Neocognitron)模型。二十世纪九十年初期,纽约大学的 Yann LeCun等人提出了多层卷积神经网络并成功应用于手写数字识别中,所提出的系列 LeNet [4,5] 都达到商用水平,被当时美国邮政局和许多大银行用来识别信封上的手写邮政编码及支票上面的手写数字。此后二十年中,许多研究人员对深度神经网络提出了深层结构的优化和训练学习方法的改进,深度卷积神经网络(Deep CNN)的性能得到了大幅提升。2012年,Hinton团队在ImageNet图像分类比赛中获得压倒性胜利,将 1000 类图像的 Top-5 分类错误率从 26.172%降低到 15.315%。在这一年,深度卷积神经网络还被用于解决 Drug Activity预测问题,并获得当时最好成绩。卷积神经网络的相关技术2.1 增加网络层数 2012 年,在ImageNet ILSVRC挑战赛的大规模图像分类任务中,Alex Krizhevsky 等人搭建了一个8层的卷积神经网络,简称AlexNet,最终top-5分类错误率达到 15.315%,抛离第二名用传统机器学习方法得到的结果—26.172%分类错误率—10 多个百分点。AlexNet使用了5个卷积层(另外包括3个pooling层和2个 norm层)、3个全连接层,参数总量达到60M。AlexNet 模型结构在2013年的ImageNet ILSVRC比赛中,排名前20的小组使用的都是深度学习算法,其中MattZeiler和Rob Fergus以其自主设计开发的 ZF-Net赢得了冠军,在不使用额外训练数据的情况下,Top5分类错误率达到了 11.743%。ZF-Net 所采用的深度神经网络框架几乎和 AlexNet 一样,区别仅仅是把第一个卷积的卷积核尺寸从11×11修改为7×7,步长从4缩小为2,输出特征图的尺寸增大为110×110,相当于增加了网络的宽度。在2014年的ImageNet ILSVRC竞赛上,牛津大学的Karen Simonyan和Andrew Zisserman设计的VGG(Visual Geometry Group)网络获得了定位任务第一名和分类任务第二名。VGG主要通过增加网络的深度提高网络性能,网络由8个部分构成,包括5个卷积组、2个全连接特征层和1个全连接分类层。VGG 网络结构的不同配置2015年ImageNet ILSVRC 挑战赛上,微软亚洲研究院何恺明等人提出的残差网络(resi
文档评论(0)