基于图像大数据的目标识别算法及在智慧旅游中的应用研究.doc

下载文档 降价啦

52
0
约1.32万字
约 13页
2017-01-11 发布于重庆
举报
版权申诉
保障服务

基于图像大数据的目标识别算法及在智慧旅游中的应用研究.doc

1、本文档共13页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

基于图像大数据的目标识别算法及在智慧旅游中的应用研究

告　正　文（一）立项依据与研究内容（4000-8000字）： 1.项目的立项依据（研究意义、国内外研究现状及分析，附主要参考文献目录。基础研究需结合科学研究发展趋势来论述科学意义；应用研究需结合国民经济和社会发展中迫切需要解决的关键科技问题来论述其应用前景。）图像目标识别是指对图像中的目标物体（如行人、动物、建筑物、食物、车牌等）进行识别，即判断图像中是否存在所要识别的目标物体，如果有则定位目标物体在图像中的位置。该研究具有广泛的应用背景。应用之一是汽车的辅助驾驶。据统计，全世界每年死于交通事故的人数多达130万人。因此，迫切需要一个能自动对行人进行检测，并及时提醒驾驶员的系统。应用之二就是对公共场所的人流量进行统计。大型商店、博物馆、旅游景点、地铁等公共场所都需要实时的人流量信息。博物馆可以根据实时的人流量信息来控制进入博物馆的人群，商场可以根据一段时间的客流变化情况来调整相应的经营策略。除此以外，图像目标识别在旅游、互联网、医疗等领域都有广泛的应用。目前，国内外的很多研究机构都开展了图像目标识别的研究。斯坦福大学的李菲菲教授领导的团队创建了一个公开的图像数据集ImageNet[1],该数据集收集了1500万张图片，这些图片总共有22000个类别。从2010年开始，在该数据集上开展了名为ILSVRC(ImageNet Large-Scale Visual Recognition Challenge)的公开评测。ILSVRC从ImageNet中选取了1000个类，每个类有大约1000张图片。所用于训练的图片有120万张，5万张验证图片，15万张测试图片。这1000个类涵盖了各种动物、各种自然场景等，每个类的图片尽可能的覆盖了光照、角度、姿态、遮挡的变化。ILSVRC是国际公认的权威测试比赛，吸引了很多著名的研究机构参与。2011年最好的成绩是74.3%的识别率，由欧洲的xerox研究中心取得[2]。所用的方法是用压缩Fisher矢量对特征进行压缩，并用随机梯度下降的方法来训练线性SVM，所用的特征是著名的SIFT特征[16]和颜色特征。 2012年，多伦多大学的Hinton教授和他的学生用GPU(图像处理单元)训练的卷积神经网络模型，在ILSVRC取得了85%的识别率[3]。和2011年的结果相比，识别率整整提高了10个百分点，这一结果不仅震动了学术界，也震惊了工业界。Google由此启动了著名的Google Brain计划，专门研究深度学习技术。卷积神经网络是由LeCun在1998年提出的模仿人类大脑所具备的高效表达信息的结构[5]，并成功应用于美国各个银行的支票上的数字识别。卷积神经网络的基本结构如图1所示，对于一张32x32像素的输入图像，采用6个5x5的模板对输入图像分别进行卷积，得到6个28x28的特征映射(feature maps)，即图中的C1,每一个特征映射内的权值是相同的；然后对这6个特征映射层分别进行下采样,即图中的S2；然后对S2再进行卷积和下采样(对应于图中的C3和S4)；然后对S4做两次全连接(对应于图中的图1. 卷积神经网络的基本结构，图片来源于[5] C5和F6)；最后的输出层采用的是高斯连接的方式。卷积神经网络中层次之间的紧密联系和空间信息使得其特别适用于图像的处理和理解，并且能够自动的从图像中抽取出丰富的相关特性，被认为是第一个真正成功的采用多层次网络结构的具有鲁棒性的深度学习方法。近几年，针对卷积神经网络的学习结构上出现了一些改进，其中最具代表的是多伦多大学的Krizhevsky等人在2012年提出的8层卷积神经网络结构[3]，如图2所示，该结构的输入是224 x224的RGB图像，共有5个卷积层和5个Max pooling层，然后是两个全连接层，最后是一个softmax输出层。和图1所示的基本结构相比，图2的结构多了3个卷积层和3个采用Max pooling方式的下采样层，这个结构更适合于像素比较大的图像，而且层次越深，学习出来的语义信息就越丰富。进一步，为了避免过拟合，图2中的两个全连接层还加入了Dropout技术[7]，为了加快训练速度，全连接层的激励函数改为了ReLUs函数[8]，而不是传统的tanh函数和sigmoid函数，同时还在ReLUs激励函数的基础上，增加了局部响应归一化操作，加强了模型的泛化能力。图2所示的结构是目前在图像识别领域应用最多的卷积神经网络结构，在此基础上，香港中文大学的Yi Sun等人提出在第一个全连接层部分，要同时和卷积层及采样层做全连接，而不是只和采样层做全连接，这样做的目的是为了避免信息的丢失[9]。Yi Sun等人把这个改进的结构成功应用于人脸识别，并取得了非常好的效果。2014年，Google公司的Christia