-精选版如何教计算机看懂一张图.pptVIP

下载本文档

4
0
约4.03千字
约 28页
2018-10-10 发布于湖北
举报
版权申诉

-精选版如何教计算机看懂一张图.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

-精选版如何教计算机看懂一张图.ppt

如何教计算机看懂一张图汇报人：黄江专业：信息计算技术 2016年12月22日 * 李飞飞2015年在TED的演讲——“我们如何教计算机理解图像” TED演讲的主旨是：Ideas worth spreading. 【T】Technology 技术【E】Entertainment 娱乐【D】Design 设计。 * 李飞飞教授曾为斯坦福大学人工智能实验室和视觉实验室主任，多年来致力于解决人工智能的棘手问题——包括图像识别,学习能力和语言处理等功能。她和她的团队在2007年通过网络众包技术，建立起了一个含有1500万张照片的数据库ImageNet，将深度学习应用到图像相关领域的这个潮流中起到了非常重要的作用。 * 今天，ImageNet数据集已经成为全球最大的图像识别数据库，包含了使用日常英语标记的超过 1400 万张图像，跨越 21,800 个类别。而且这个集合了全球智慧和力量的数据库是免费的。这也就意味着，全球所有致力于图像识别的公司，都可以免费对自己的算法进行反复测试。数据集应用于一年一度举办的The ImageNet Large Scale Visual Recognition Challenge (ILSVRC)?比赛 ?2016年李飞飞教授也从学术界转移到了工业界，正式加入谷歌，任Google Cloud Machine Learning（谷歌云机器学习）负责人。 * 2016年李飞飞开启了VisualGenome（视觉基因组）计划，要把语义和图像结合起来。在VisualGenome 的官方网站上，把它定义为： VisualGenome 是一个数据集，知识库，不断努力把结构化的图像概念和语言连接起来。 VisualGenome 的图像要比ImageNet的图像标签更为丰富，包括名字、图片的不同细节，以及在对象和动作信息之间的关系。 ImageNet大规模视觉识别挑战赛 VisualGenome 挑战赛 * 深度学习在图像语义分析的应用图像分类（image classification）目标检测（object detection）图像理解 * 图像分类（image classification）图片分类是一个最基本的图片语义分析方法。传统的图片分类，首先需要先手工提取图片特征，譬如SIFT，再经由VQ coding和Spatial pooling，最后送入传统的分类模型(例如SVM等)。传统方法里，人工特征提取是一个巨大的消耗性工作。而随着深度学习的进展，不再需要人工特征，通过深度学习自动提取特征成为一种可能。接下来主要讲述卷积神经网络在图片分类上的使用。 * 基于深度学习的图片分类由Hinton和他的学生Alex Krizhevsky在ILSVRC(Imagenet Large Scale Visual Recognition Competition) 2012中提出。整个网络结构包括五层卷积层和三层全连接层，网络的最前端是输入图片的原始像素点，最后端是图片的分类结果。一个完整的卷积层可能包括一层convolution，一层Rectified Linear Units，一层max-pooling，一层normalization。 * InputLayer就是输入图片层，每个输入图片都将被缩放到固定尺寸，分rgb三个颜色维度输入。 Layer1~ Layer5是卷积层。在Layer1，卷积滤波后，还接有ReLUs操作和max-pooling操作。 Layer6~ Layer8是全连接层，相当于在五层卷积层的基础上再加上一个三层的全连接神经网络分类器。 Layer8的神经元个数相当于训练目标的图片类别数。 * 目标检测目标检测（object detection）相比于图片分类，提取到信息将更加丰富。目前最先进的detection方法应该是Region-based CNN(简称R-CNN)，是由Jeff Donahue和Ross Girshick提出的。R-CNN的具体方法是，将detection分为寻找object和识别object两个过程。在第一步寻找object，可以利用很多region detection算法，譬如selective search，CPMC，objectness等，利用很多底层特征，譬如图