计算机视觉简介.docVIP

下载本文档

9
0
约6.57千字
约 6页
2019-09-13 发布于江西
举报
版权申诉

计算机视觉简介.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

计算机视觉简介胡占义中科院自动化研究所模式识别国家重点实验室在介绍计算机视觉之前，首先需要回答的一个问题是什么是计算机视觉。正像很多学科一样，很多人在从事这方面的研究，但又很少有人能给出一个严格的定义。人工智能是这样，虚拟现实是这样，计算视觉也是不例外。最直观地讲，所谓计算机视觉就是用计算机来模拟人的视觉系统，实现人的视觉功能。马上随之而来的另一个问题是：人类视觉的主要功能是什么？或者更一般地讲，人类视觉系统主要是干什么的？我们人人有两只眼，眼的用处是看东西。我们无时不刻在用眼看东西，但我们主要在看什么？看的目的是什么？或者说为什么要看？似乎这些问题简单得很少有人去思考，但事实上又很少有人能说清楚。人与其它动物一样，视觉、听觉、触觉等感官功能的产生，首先在于进化过程中生存的需要。根据美国心理学家Gibson的理论，人的视觉不管有多少用处，但主要功能可概括为适应外界环境和控制自身的运动。看到汽车冲过来，你会赶快回避；看到前面有激流，你不会贸然淌过去。“适应外界环境和控制自身的运动”还是比较抽象的概念。事实上，为了适应外界环境和控制自身的运动，我们的视觉系统需要：能识别物体（可想而知，一个人连亲戚、同事、朋友都不认识，会怎样生活），能判断物体的运动以及确定物体的形状和方位（否则，无法抓取物体）。所以，物体识别、物体定位、物体三维形状恢复和运动分析，就构成了计算机视觉的主要研究内容。物体识别包含两种主要形式，一种叫做类型识别。如“椅子”可以有多种多样的形状，座椅，背椅，靠椅，但人们可以很容易地把他们归到“椅子”类。这种识别用的是物体的通用属性。另一种识别是同类物体的鉴别。如从人脸中识别出某个人，此时用的是类内的特定信息。物体识别要求既要能抽象出物体的共同属性，又要能分辨出相似物体间的细微区别，所以物体识别问题是一个非常困难的问题。要对物体进行识别，我们的大脑应该对这个物体有某种表达（或记忆）。表达问题（representation）是计算机视觉的一个核心问题。在计算机视觉界，目前有两种主要表达理论。一种是马尔（Marr）于上世纪八十年代初提出的三维表达理论（也成为三维重建理论:3D reconstruction paradigm）。一种是本世纪初人们提出的基于图像的表达理论（view-based representation）。三维表达的基本思想是：物体在大脑中表达的是物体的三维几何形状。因为物体的三维几何形状与视角无关，所以三维表达是与视角无关的表达。Marr 的三维物体表达模型的提出，宣告了计算机视觉这门学科的诞生。Marr的物体表达方式，主要在他1982年出版的一书中进行了详细介绍【1】，至今仍具有重要的影响。但近年来人们发现，Marr的这种三维表达方式也有很多不足，与很多生理和心理实验不符，所以人们又提出了基于图像的表达方式.基于图像的表达比较系统性的论述是Poggio 等人与2004年在Nature上的文章【2】。近几年，特别是神经科学的进展，人们发现基于图像的表达方式也有很多不足，所以人们猜测物体的表达模型可能是二维和三维的混合模型【3】。总之，物体表达是一个重要的问题，但也是至今仍没有很好解决的一个问题。粗略地讲，计算机视觉经历了以下4个主要发展历程： 1：马尔视觉计算理论．1982年马尔视觉计算理论的提出【1】，标志着计算机视觉成为了一门独立的学科。马尔视觉计算理论包含二个主要观点：首先，马尔认为人类视觉的主要功能是复原三维场景的可见几何表面，即三维重建问题；其次，马尔认为这种从二维图像到三维几何结构的复原过程是可以通过计算完成的，并提出了从图像初始略图（sketch）?物体2.5维描述—物体3维描述一套完整的计算理论和方法。 2：主动视觉，目的视觉。针对马尔理论在具体应用中遇到的困难，以Aloimonos【4】，Bajcsy等为代表的学者在上世纪八十年代末、九十年代初提出了“目的视觉”、“主动视觉”、“定性视觉”等理论。这些理论的共同特点是认为马尔理论自下到上的三维重建过程，由于缺乏目的性、缺乏高层知识反馈，从而导致三维重建框架不可行，重建算法不鲁棒。他们强调视觉算法高层知识反馈的必要性和重要性，以及视觉主体与环境交互的重要性。这些理论尽管从原理上来说更加符合人类视觉过程，但由于“利用什么样的高层知识”，“如何利用高层知识”，“视觉主体如何与环境进行有效交互”等这些核心问题目前人们还知之甚少，在近期内估计还很难建立有效的计算模型，所以这些理论自从1994 年众多知名学者在CVGIP：Image Understanding上组织关于主动视觉的大辩论后，这些理论至今仍没有显著性进展。 3：分层重建理论 (Stratified Reconstruction).以Faugeras 和Hartley【5】等提