计算机视觉简介解析.docVIP

下载本文档

14
0
约 7页
2016-04-30 发布于湖北
举报
版权申诉

计算机视觉简介解析.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

作者姓名：?潘春洪;张彩霞计算机视觉简述 ??? 人们常说：眼睛是心灵的窗户，通过眼睛人们可以轻易地交流情感，眼睛也是与外界交流的窗口，这些都是通过“看”来完成的。 ??? 人们可以很容易“看到”一幅画，但这一“简单”过程并不如此简单，大致上它可以分为以下几个阶段：首先是通过眼睛将图成像在视网膜上；其次大脑对图像进行理解；最后根据处理的结果做出反应。用比较专业一点的语言来描述，该过程包括了识别、描述与理解三个层次；这其中还隐含了边缘检测（各物体的轮廓等）、图像的分割（各物体区域的划分）等阶段。以上实际上概述了视觉系统的三个层次，即低层阶段：基于图像特征提取及分割阶段；中层阶段：基于物体的几何模型与图像特性表达阶段；高层阶段：基于景物知识的描述、识别与理解阶段，这是根据先验知识介入的程度划分的，且实现起来也越来越困难。 ??? 毫无疑问，如何人工实现这一过程是极具挑战性和应用前景的一项工作，计算机视觉也因此而应运而生。计算机视觉是研究用计算机和成像设备来模拟人和生物视觉系统功能的技术学科，其目标是从图像或图像序列中获取对外部世界的认知和理解，即利用二维图像恢复三维环境中物体的几何信息，比如形状、位置、姿态、运动等，并能描述、识别与理解。 ??? 计算机视觉的基础是各种成像设备，例如CCD(Charge Coupled Device )摄像机（数码相机属于此类型）、红外摄像机、医学上常用的核磁共振成像、X射线成像等，这些设备不仅可以成像，还可以获取比人眼更丰富的图像，人们可以形象地把摄像机看成计算机视觉的视网膜部分。可以说从人类拍摄出第一幅图像开始，就为计算机视觉的诞生奠定了基础。 ??? 而计算机视觉的核心是数字电子计算机，其发展可谓突飞猛进，在计算和存储能力上，人脑已经无法与之相比，人们的目标就是利用计算机非凡的计算处理能力来代替人脑实现对图像的理解，而计算机日新月异的发展也使得这一愿望越来越成为可能。 ??? 用于指导“计算机”这个大脑运作的核心是计算机视觉的理论方法，计算机视觉使用的理论方法主要基于几何、概率和运动学计算与三维重构的视觉计算理论，它的基础包括射影几何学、刚体运动力学、概率论与随机过程、图像处理、人工智能等理论。在20世纪70年代，视觉研究大多采用模式识别的方法；80年代，开始采用空间几何的方法以及物理知识进行视觉研究；90年代以后，随着智能机器人视觉研究的发展，引入了许多新的理论与技术如主动视觉理论、不变量理论、融合技术等，并应用于许多计算机视觉系统中。 ??? 研究计算机视觉，不得不提的是英国已故科学家戴维·马尔（David Marr），他在计算机视觉发展史上可谓写下了浓重的一笔。在20世纪70年代末，他提出了第一个较为完善的视觉系统框架，即计算视觉理论框架。他认为视觉是一个复杂的信息处理过程，并有不同的信息表达方式和不同层次的处理过程，而最终的目的是实现计算机对外部世界的描述。由此，他提出了三个层次的研究方法，即计算理论层、表征与算法层以及实现层。并且设想出了自下而上，没有反馈的视觉处理框架，他认为视觉的主要任务是获得物体的三维形状，并把获取过程分为三个阶段，即原始基元图(primal sketch)→2.5维图( 2.5dimensional sketch)→3维模型表示。其中，基元图由二维图像中的边缘点、直线、曲线、顶点等基本几何元素或特征组成；2.5维图是指对基元图进行一系列处理运算，推导出可见表面的朝向、轮廓等几何信息，是在观察者坐标系下描述的部分的、不完整的三维物体形状（另一部分是物体的背面或被遮挡的部分）；3维模型表示则描述物体坐标系下的各种形状及其空间组织。 ??? 迄今为止，研究者们在Marr计算视觉理论框架下，进行了大量的研究，并取得了丰富的成果，最瞩目也最完善的成果当属基于几何方法的计算机视觉理论体系。 ? 图1　摄像机成像的针孔模型 ??? 日常生活中最常用的成像设备－数码相机的理想成像模型是针孔模型，很多视觉研究内容都是在这种模型下进行的。如图1所示，可以看出：景物点、针孔、景物点的像三点共线。为了方便起见，通常认为图像平面在针孔的前面，即虚拟图像的位置，除了是相互倒立的外，二者是完全等价的。利用成像设备，获取了图像，这时图像点的位置已经确定，如果针孔的位置也可以确定的话，那么根据三点共线的约束，可知景物点一定在这条射线上，但是这条射线上的每一点成像都是相同的，所以仅从一幅图像是无法确定景物点距离摄像机光心（即针孔位置）的深度的。这样，若再有一幅包含上述景物点的图像（同一景物点在不同相机下的像称为一对对应点），则存在另一条射线，两条射线相交，从而可以确定出景物点的空间位置，如图2所示，对于两幅或多幅图像上的每对对应点都进行类似的处理，则可获得物体的三维形状信息，如图3所