图像视觉识别算法概述.pdfVIP

  1. 1、本文档共9页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多

图像视觉识别算法概述

作者:任萌

来源:《智能计算机与应用》2019年第03期

摘要:随着人工智能的快速发展,人们现在的生活也越来越智能化,各类人脸识别打

卡,指纹检测技术越来越广泛地应用到人们的日常生活当中,这离不开图像视觉识别算法和相

关技术的发展。其中,卷积神经网络对于视觉识别技术和方法的研究中已经占有绝对的优势。

目前,许多研究学者尝试通过优化卷积神经网络算法的结构和性能来提高图像识别的精确度和

识别速度,从而使得其可以广泛应用于数据挖掘的各个领域,并对其在实际生活的应用做出更

大的贡献,本文将对TheResidualNetwork,DenseNet,GoogLeNet三种图像视觉识别模型的

训练过程、应用和特点进行研究,同时对图像视觉识别算法和技术在实际生活中的应用进行简

要论述与展望,特别是在数据挖掘方面的应用。图像视觉识别技术是一种可以应用于各个领

域,也可以剖析人类行为的热点研究课题。

关键词:图像视觉识别;ResidualNetwork;DenseNet;GoogLeNet;卷积神经网络;对比分析;

数据挖掘

文章编号:2095-2163(2019)03-0294-04中图分类号:TP183文献标志码:A

引0言

图像视觉识别(ImageVisualRecognition)作为一种已经在现实生活中广泛应用的技术,

近几年来,更是发展迅速。2014年,Szegedy等人[1]提出了GloogLeNet,这是一种全新的深

度学习结构,主要解决计算机硬件和稀疏结构之间的矛盾问题。基于卷积神经网络[2]

(CNN)中类似于LeNet-5的标准结构而提出的。既引入稀疏性,又利用现有硬件针对密集矩

阵的计算能力,设计了Inception[3-4]结构用于机器学习的分类任务中[5],但参数太多,容易

发生过拟合。2015年,微软的He等4名华人提出了ResNet[6-8](ResidualNeural

Network),使用ResNetUnit成功训练出了152层的神经网络结构,加快神经网络的训练速

度,模型的精度也有大幅提升。ResNet[9]在图像识别[10]、定位和检测任务中也都取得了非常

不错的效果。2017年,Huang等人提出DenseNet[11],避开了ResNet的加深神经网络和

Inception的加宽网络结构的方式,利用每一个输入层都会直接影响到后面所有输出层的思想,

提升模型精度。

目前,图像视觉识别技术的应用已可见到很多,包括人脸检测[12-13]、目标检测[14-15]、

以及百度、IBM和Google推出的很多图像检测模块的产品都已经得到了广泛使用。通过辨识

图片中的物体类别,都已经陆续应用到医学[16]、车辆定损[14,17]、农作物识别[18]等等社會

实际生活中,提高人们的生活品质。

但是,从数据挖掘[19-21]的角度来看,图像识别技术使得不仅仅可以从单一的文字来挖掘

人们的行为和喜好,同样可以通过在线社交评论网站的图片来挖掘不同人的行为和喜好。这也

是目前学界广受研究者关注的一个研究课题。

图像视觉识别算法1

1.1GoogLeNet

GoogLeNet是Google研究出来的深度网络结构,通过提出Inception的网络结构来引出2

个问题,对此可描述为:

(1)增加网络深度可以提高模型精确度。

(2)降维可以减少计算量。

其核心思想便是通过增加模型深度(层数)或者其宽度(神经元)来保证高质量的模型。

如图1所示,整个GoogLeNet就是由多个Inception结构串联起来,其中利用1×1的卷积来进

行升降维,并在多个尺寸上同时进行卷积再聚合。该图引自Szegedy等人的论文中。

1.2ResNet

ResNet残差网络最初是由He等人[7,22]提出来的,并由其进行扩展。通过采用了一种原

则性方法,对每一层的输入做了一个参考,这种残差函数更容易优化,能使网络层数大大加

深。研究中给出一个实例如图2所示。图2(a)中,映射后可以拟合出任意目标映射H

(x),其中x表示网络层数,引出了一个Residualnet。图2(b)拟合出F(x),而且H

(x)=F(x)+x,其中F(x)表示残差映射,当H(x)最优映射接近identity时,很容易捕

捉到小的扰动。在计算机视觉里,随着

文档评论(0)

150****6477 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档