- 1、本文档共6页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
115|什么是计算机视觉?
2018-08-24洪亮劼来自北京
《AI技术内参》
在之前的一系列分享中,我们详细讲解了人工智能核心技术中的搜索、推荐系统、计算广告以
及自然语言处理和文本处理技术。从今天开始,我们来分享专栏里人工智能核心技术模块的最
后一部分内容:计算机视觉技术。
可以说,计算机视觉技术是人工智能技术的核心方向,特别是深度学习技术在计算机视觉中的
应用,在最近五六年的人工智能浪潮中担当了先锋者的角色。甚至可以说,如果没有深度学习
技术在过去几年对计算机视觉一些核心领域的推动和促进,就很可能没有这一波的人工智能技
术浪潮。
我们可以这么来看待人工智能技术,它可以说是利用计算机技术来对人的感官,例如视觉、听
觉、触觉以及思维进行模拟,从而建立起逻辑推断等智能才具备的能力。其中,计算机视觉技
术无疑是至关重要的,也是非常困难的。
今天我会带你先来看看究竟什么是计算机视觉,以及这个方向的研发都需要解决哪些核心问
题。
计算机视觉的定义
关于计算机视觉(ComputerVision,CV),有两种人们普遍接受的定义。
第一种定义认为,计算机视觉是从数字图像(DigitalImages)中提取信息。这些信息可以是
图像中的物品识别(Identification)、导航系统的位置测量(SpaceMeasurement)以及增
强现实(AugmentedReality)的应用。
计算机视觉的第二种定义主要是从应用的角度出发,认为计算机视觉是为了构建可以理解数字
图像内容的算法,从而有多种应用。
那到底什么是计算机视觉呢?主要解决哪些问题?我们可以拿人类视觉的主要功能来做类比,
就比较容易理解了。
当人类面对一个现实中的场景时,我们有一个感官器官来收集信号,那就是“眼睛”。眼睛收
集的原始信号转换为人可以处理的信息之后,这些信息就来到了“大脑”这一个人类信息处理
中心,进行分析和处理。
这个过程中最主要的一个处理模块,就是对信号产生“语义”(Semantic)解释或者进行逻
辑上的理解。比如,当我们看到一个公园的一角以后,需要识别这个场景里的桥梁、水、树等
物体,并且在头脑中形成这些物体的概念。可以说,这就是人类视觉系统的一个简单的框架,
眼睛收集信息,大脑处理信息。
那么,在整体的框架上,计算机视觉其实就是希望模仿人类的视觉系统构架。输入依然是一个
现实中的场景,但是我们需要借助其他的感知仪器(SensingDevice)来从中获取原始信
息。最常见的感知仪器包括照相机、摄像机以及现在广泛普及的手机摄像头。从这些感知仪器
中获取了最初级的信息之后,计算机视觉的“大脑”就是计算机。这里的“计算机”其实是指
计算机算法,通过算法理解原始数据,构建语义信息。
这么理解起来,计算机视觉技术好像挺简单的。就像1966年,麻省理工大学的一个本科生想
做这样一个暑期项目,并且认为这个项目可以在一个暑假里解决。这或许就是计算机视觉的一
个起源了。但是,令人感慨的是,计算机视觉绝不是可以在一个假期内解决的项目,整整半个
多世纪已经过去了,计算机视觉依然有很多值得挑战的课题,也依然还在高速发展中。
计算机视觉的领域特点
了解了计算机视觉的定义之后,我们来进一步聊一聊这个领域的一些特点。
首先,计算机视觉是一个“跨学科领域”。正如刚才所说,对人类视觉的研究给计算机视觉带
来了重要的启发。那这里就涉及到生物领域的研究,包括对人的眼睛以及视觉神经的研究。一
方面,我们需要感知器来从现实世界中获取信息。那么,对于感知仪器来说,设备越是精确,
就越能完整地捕捉外界世界的信息。这里就涉及到物理,特别是光学的研究。另一方面,人脑
是处理所有信号并且形成语义概念的器官,理解人脑的信息处理机制就会对计算机视觉的发展
有重要的作用,这就涉及到脑科学和认知科学等领域。
除此以外,计算机视觉毕竟是一个和计算机结合得很紧密的学科方向。因此,要想设计高效的
计算机视觉算法,就必须和计算机科学的很多其他方向结合并借鉴,例如信息检索、计算机体
系结构、机器学习等。
计算机视觉的另外一个特点,就是这个领域包含了很多非常深刻的困难问题。我们说,从计算
机视觉被当作一个暑假项目到现在,五十多年已经过去了,这个领域依然在蓬勃发展着。时至
今日,我们依然不能说计算机视觉是一个已经被完全解决的问题。
那计算机视觉任务“难”在哪里呢?我认为根本原因在于计算机视觉算法处理的输入,也就是
数字化了的图像信息和我们需要理解的语义信息之间存在巨大的鸿沟。举例来说,一个200
乘以200的RGB图像其实就是一个由12万个数字组成的矩阵,但是这个矩阵
您可能关注的文档
- 025-ICML2018论文精读:模型经得起对抗样本的攻击?这或许只是个错觉【萌萌家】.pdf
- 026-ICML2018论文精读:聊一聊机器学习算法的“公平性”问题【萌萌家】.pdf
- 027-ICML2018论文精读:优化目标函数的时候,有可能放大了“不公平”?【萌萌家】.pdf
- 031-经典搜索核心算法:TF-IDF及其变种【萌萌家】.pdf
- 035-机器学习排序算法:配对法排序学习【萌萌家】.pdf
- 038-“查询关键字理解”三部曲之解析【萌萌家】.pdf
- 043-文档理解第一步:文档分类【萌萌家】.pdf
- 046-大型搜索框架宏观视角:发展、特点及趋势【萌萌家】.pdf
- 048-搜索索引及其相关技术概述【萌萌家】.pdf
- 049-PageRank算法的核心思想是什么?【萌萌家】.pdf
- 小学生色彩认知与美术色彩理论学习研究教学研究课题报告.docx
- 高中政治课堂中国家治理体系的解读与分析教学研究课题报告.docx
- 初中数学几何画板在图形教学中的应用教学研究课题报告.docx
- 小学数学“深度学习”在数学思维训练中的应用与实践教学研究课题报告.docx
- 小学信息技术教育中网络安全意识的培养教学研究课题报告.docx
- 小学心理辅导课程中团体心理辅导方法的应用研究教学研究课题报告.docx
- 高中信息技术课程中的数据可视化教学策略与实践教学研究课题报告.docx
- 小学英语歌曲教学歌词创作与语音节奏感知训练教学研究课题报告.docx
- 高中数学建模与创新能力培养实践研究教学研究课题报告.docx
- 初中英语课堂沉默现象的成因及教学策略创新研究教学研究课题报告.docx
最近下载
- 译林英语五年级下册期中试卷.doc VIP
- 武汉市2025届高中毕业生二月调研考试(二调)数学试卷(含答案详解).pdf
- 2023年北京市西城区中考地理会考试卷.docx
- 基于ansys有限元分析法的无人机起落架结构设计和静力分析.docx
- 产业用地M9可卖80%,可配住宅.pdf
- 推进高校“一站式”学生社区建设.docx VIP
- syb创业培训第五步选择一种企业法律形态.pptx VIP
- DBJ_T 15-88-2022 建筑幕墙可靠性鉴定技术规程.docx
- 课题开题报告:数智化一站式学生社区建设赋能高校新质人才培养的路径研究与实践.docx VIP
- 贝壳房屋买卖合同范本2024年.docx
文档评论(0)