面向复杂视觉大数据的深度学习方法.docVIP

下载本文档

1
0
约4.3千字
约 10页
2021-03-20 发布于未知
举报
版权申诉

面向复杂视觉大数据的深度学习方法.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

面向复杂视觉大数据的深度学习方法导语：?伴随着电子信息技术的高速发展以及各类摄像头的广泛应用，全球图像视频数据爆炸式增长，人类社会正在进入视觉信息的大数据时代。海量的图像和视频在方便人们生产与生活的同时，也对智能视觉技术提出了新的挑战。伴随着电子信息技术的高速发展以及各类摄像头的广泛应用，全球图像视频数据爆炸式增长，人类社会正在进入视觉信息的大数据时代。海量的图像和视频在方便人们生产与生活的同时，也对智能视觉技术提出了新的挑战。目前大多数视觉处理系统可以很好地采集、传输和存储图像视频，但是缺乏对其图像视频内容高效准确的分析、识别和挖掘方法。首先，图像视频内容复杂，包含场景多样、物体种类繁多，这就要求处理方法对纷繁复杂的多种对象具有鲁棒的处理能力；其次，非受控条件下，图像和视频的内容受光照、姿态、遮挡等影响变化大，这就要求处理方法对复杂变化具有鲁棒性；最后，图像视频数据量大，特征维度高，部分应用需实时处理，对海量数据的计算效率有较高的要求。近年来深度学习方法的快速发展，为解决上述问题提供了有效的途径。图1视觉大数据的特点、挑战与核心问题深度学习方法的前世今生深度学习方法(Deeplearning)作为传统神经网络的拓展，近年来在语音、图像、自然语言等的语义认知问题上取得巨大的进展，为解决视觉大数据的表示和理解问题提供了通用的框架。深度学习利用包含多个隐层的深层神经网络，解决需要高度抽象特征的人工智能任务。深度学习借鉴了人脑的多层（通常认为是8-10层）神经细胞处理结构，多层非线性结构使得深度神经网络备对抽象语义特征的抽取能力和对复杂任务的建模能力。传统神经网络受限于过拟合(overfitting)问题，很难训练出泛化能力强的多层网络模型。深度学习通过组合低层特征形成更加抽象的高层表示属性类别的特征，以发现数据的分布式特征表示。建立深度学习的一个动机在于模拟人脑的分析处理机制来解释数据，人脑皮质具有多层的结构，信息在人脑中逐层处理，逐步抽象。深度架构看做一种因子分解，即从复杂的数据中抽取出可复用的表达本质特性的特征。深度学习模型由于其多层非线性结构，具有强大的能力，特别适合大数据的学习（图2）。这是由于传统浅层模型由于能力有限，在训练数据量增大到一定程度时其能力往往饱和，无法充分利用大规模训练数据所包含的有效信息。与此对应，深度学习方法由于其强大的能力，可以较为充分的利用大规模数据，从中提取有效的特征。图2深度学习方法与非深度学习方法在训练数据量增加时的性能对比深度学习方法在视觉领域的进展目前，深度学习已经在人工智能的多个应用领域如图像分类、语音识别、自然语言理解等取得了突破性的进展。深度学习由于其优异的效果，也引起了工业界的广泛兴趣，以谷歌、脸谱、微软、百度等为代表的互联网企业已经成为深度学习技术创新的重要力量。在语音领域，深度学习用深信度网络DBN替换声学模型中的混合高斯模型（GaussianMixtureModel，GMM），获得了相对错误率显著的降低(30%左右)，并已经成功的应用于微软、谷歌、讯飞等的语音识别引擎。在机器翻译领域，神经语言模型较传统方法取得了更好的效果。2016年，由谷歌DeepMind开发的AlphaGo围棋程序依靠深度学习和强化学习的强大能力，在围棋人机大战中以3:1战胜了韩国顶级棋手李世乭。物体分类在图像领域，Krizhevsky等利用多层卷积神经网络，在大规模图像分类ImageNetLSVRC-2012竞赛中（包含1千个类别，120万图像）取得了明显高于传统方法的结果，将Top5错误率由26%大幅降低至15%，该神经网络有7层，包含约65万个神经节点和6千万参数。目前卷积神经网络已经成为该领域的主流方法。在此基础上，研究人员提出了VGGNet、GoogLeNet、残差网络ResidualNet等更深层的网络，并提升了深度学习方法在大规模图像分类领域的性能。深度网络还能准确检测出图像物体的位置，也能预测例如人体部位手、头、足的位置和姿态。图3AlexNet网络结构人像分析在人脸识别方面，深度神经网络在人脸识别领域公认困难的LFW数据库上超过了人眼识别的准确度。图4给出了在人脸识别领域取得优秀性能的DeepID网络结构，该网络根据人脸结构的特殊性，提出了使用局部共享卷积，提升了网络对人脸图像的分类能力。提出面向跨年龄人脸识别的隐因子卷积神经网络，该网络将隐因子学习引入深度网络，将深度网络中全连接层特征分解为身份和年龄两个部分（图5），为提升深度网络对年龄变化的鲁棒性提供了一条新途径，实验表明该网络在著名的LFW数据库上取得了99%的正确率，超过了人眼在这一数据库上的表现97%，并