场景分析中的神网络视觉计划表示.docVIP

下载本文档

0
0
约6.48千字
约 9页
2018-10-13 发布于江苏
举报
版权申诉

场景分析中的神网络视觉计划表示.doc

1、本文档共9页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
5、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
6、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
7、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
8、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

场景分析中的神网络视觉计划表示

场景分析中的神经网络视觉计划表示 Representing Visual Schemas in Neural Networks for Scene Analysis 概要：在神经网络系统中把简单场景中的对象识别作为任务的研究集中在两个主要的问题上：第一个问题是利用有限的资源处理大量的输入；第二个问题是表示和利用结构化的知识。第一个问题的出现是由于没有一个实用的神经网络可以同时高效地处理所有的可视化输入。解决这个问题的办法是并行地处理比较小的输入，并且连续地处理输入的其他部分。为了能够描述和翻译收集来的前后相继的信息，这个策略需要系统维护一个结构化的知识。被提议的系统VISOR由两个主要的模块组成。低层可视化模块(Low-Level Visual Module)从可视化输入中提取特征和位置信息。计划模块(Schema Module)把可能的对象的可视化知识编码，并且为低层可视化模块提供自上而下的信息，以便把注意力集中在场景中互不相同的部分。通过和低层可视化模块的协力合作，计划模块建立了一个对于收集到的前后相继的可视化信息的全局一致的翻译。 Ⅰ 介绍考虑在简单场景中对象识别的任务。一个场景分析系统不得不识别场景中的对象(比如一张弓和两棵树)并且识别出场景所描绘的到底是什么。在设计一个执行以上所描述的功能的神经网络系统的过程中，我们遇到了两个基本的问题： 1 怎样能使得一个固定的，有限的神经网络能够处理无限的信息？ 2 怎样能使得一个神经网络能够表示和利用已有的结构化知识？实际上，在许多神经网络应用领域我们都遇到了以上所描述的两个问题，例如在语言理解和自然语言处理领域。这个研究的目的就是把场景分析作为一个具体的任务，针对这些问题发展一些通用的方法。我们现在来考虑第一个问题：有限的处理资源。在实践中，我们只可能建立一个拥有固定数量的输入单元和内部处理单元的神经网络。权重和行为拥有有限的精确度并且被限制在某个范围之内。输入单元的数量可能比场景的型号要小。尽管网络可以一次捕捉一个场景的很大一部分，但是它不可能并行地处理所有的信息除非它有指数级的单元和线路。唯一可行的选择是并行地处理视觉输入的一个小部分，并且相继地处理这个场景的不同部分。这个场景同样地应用在生物视觉系统中。因为网络是固定的和有限的，它不可能为无限的输入信息提供足够的存储空间。它应该为目前已经收集到的信息建立和维护一个局部的翻译。基于已收集到的信息，它估计出输入特征属于某个已知对象的可能性。随着更多的信息被接收，它加强或者削弱先前做出的估计。他不停地处理场景的其他部分直到收集够足够的信息来建立一个一致的翻译。每个局部翻译都和网络的一个稳定的中间状态相对应。采用这个策略的系统，为了能做出翻译，都需要一个在心理研究上通常被称作计划的内部模块。因此第一个问题的解决方法需要让神经网络编码计划，或者更普通的，我们叫做结构化知识；也就是说，第一个问题的解决需要引用第二个问题。一个解决问题的办法是在神经网络中象征性地表示这样的知识。这个方法在可以很好地使用于简单场景，但是对于更为复杂的系统它没有普遍的适应性。神经网络并不擅长于直接处理符号。但是，他们对特征提取，联想，限制性满足，模式分类和其它的一些模糊决定很在行。这些任务通过神经过程得到执行，就象单元和网络间的合作和竞争。 VISOR(Visual Schemas for Object Representation)是被设计用来在对象识别和场景分析领域解决上文所述的两个基本问题的。简化工作可是让我们把精力放在核心问题上——计划的学习和表示。在这个工程中要考虑的场景是由对象组成的，而对象是由直线和一些简单的图形（例如矩形和三角形）组成的。描述对象和场景的知识包括四个位置关系（左，右，上，下）和一个层级关系（属于）。这样的知识可以很方便地被编码成地图和单元之间的联系。除去简化任务，这个研究的目的是得到可以适用于更复杂的场景和任务的通用的解决方法。 Ⅱ　相关工作Ｒumelhart et al　提出了一个通用的方法，可以用PDP模式编码概念上的计划。计划的单个组件，比如沙发，床，浴缸和洗手间被表示成一个网络内的不同单元。两个单元之间联系的权重表示这两个组件在一个计划内出现的可能性，并且网络的行为模式把一个计划的实例编码。这个网络不编码计划间的层级关系。 Hinton　描述了三种表示层级知识的方法。其中第二中方法和VISOR中曾经用过的一种方法很相似。网络里的很多单元被组织成不同的层。层级越高，该单元所表示的对象也就越复杂。表示对象组件的较低层次的单元被连接到表示对象本身的较高层次的单元。 Norman和Shallice的认识模型偏重于对计划的激活和控制。在这个模型，指定域的行为计划和思考计划可以被独立地激活。将要被运行的计划的一