- 1、本文档共92页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
8.2 统计模式识别 - 东南大学自动化学院
典型模式识别系统 图像识别系统 8 图像识别 8.1 概述 模式可以定义为物体的描述。由于描述这个词的意义比较广泛,有人把它推广到图像数据本身,因为图像数据也是相应事物的一种描述,只不过这样的描述不够抽象和简要而已。前章中我们已经讨论过图像的各种特征和描述的提取方法。因此,我们将模式解释为物体的较抽象的特征和描述。 模式可以是以矢量形式表示的数字特征; 也可以是以句法结构表示的字符串或图; 还可以是以关系结构表示的语义网络或框架结构等。 对于上述三种类型的模式,必须分别使用不同的识别和推理方法:统计模式识别,句法模式识别和人工智能方法。 特征选择 所要提取的应当是具有可区别性、可靠性、独立性好的少量特征。 因此特征选择可以看作是一个(从最差的开始)不断删除无用的特征和组合有关联的特征的过程,直到特征的数目减少到易于驾驭的程度,同时分类器的性能仍能满足要求为止。 每类的每一个特征均值: 假设训练样本中有 个不同类别的样本。令 表示第 类的样本数,第 类中第 个样本的两个特征分别记为 和 。 每类的每一个特征均值: 和 注意:仅是两个值基于训练样本的估计值,而不是真实的类均值。 特征方差 第 类的特征 和特征 的方差估值分别为: 和 在理想情况下同一类别中所有对象的特征值应该很相近。 特征相关系数 第 类特征 和特征 的相关系数估计为 它的取值范围为 。 如果=0,说明这两特征之间没有相关性;接近+1表示这两个特征相关性强;为-1表示任一特征都与另一特征的负值成正比。 因此,如果相关系数的绝对值接近1,则说明这两个特征可以组合在一个特征或干脆舍弃其中一个。 类间距离 一个特征区分两类能力的一个指标是类间距离,即类均值间的方差归一化间距。显然,类间距离大的特征是好特征。 对特征 来说,第 类与第 类之间的类间距为: 降维 有许多方法可以将两个特征 和 合成为一个特征 ,一个简单的方法是用线性函数: 由于分类器的性能与特征幅值的缩放倍数无关,可以对幅值加以限制,如 因此 其中 是一个新的变量,它决定 和 在组合中的比例。 如果训练样本集中每一对象都对应于二维特征空间(即平面 )中的一个点,上式描述了为所有到在 轴(与 轴成 角)上的投影。显然应选取使得类间距最大的或者满足评价特征质量的其它条件的 。 8.2 统计模式识别 8.2.1 基本概念 这里我们讨论数字特征的识别。其前提是,假定我们所处理的模式每一个样本都表示为N维特征矢量,写为: 显然,特征矢量 可以表示为N维特征矢量空间 中的一个点,这样统计模式识别的概念及方法就可以在特征空间中予以研究。 语言定义为某一字符集上的任一句子集合,该集合不一定是有限的。 给定了字符集、句子、语言的基本定义之后,仅仅明确了下述问题:字符组成句子,句子组成语言。字符究竟是按照什么规则组成句子,进而组成语言?这有待于对语法的研究。与任何一种自然语言一样,语法在形式语言中起中心作用。句法模式识别中的各个环节,都是围绕着语法进行研究的。 8.3.2 高维语法 经典形式语言中定义的语法,原是为自然语言理解设计的,因此,它只处理字符串组成的语言。字符串是一维级联的,难以表达结构信息,为了更好地描述物体的各部分空间联接关系,提出了不少高维语法。这里简单介绍图像描述语言(PDL)和树语法。 一、??? 图像描述语言(PDL) 图像描述语言主要用于图形形状结构,其基元是有向线段,该线段有头和尾,线段之间的连接方式与矢量运算相仿。表示成图中的加、“x”乘和“*”乘。 例子: 其中“ ”表示有向线段d的反向。显然,该语法产生的语言是: 它描述的图形结构为 P: 死区问题 ? DAG 在判决函数完全获得定义之后,分类器的设计才算结束,可以用于分类。通常,线性判别函数中的权系数 是用训练或称学习的方法获得的。为了讨论上的方便,先考虑两类问题。 所谓训练,就是给定一组已经标定好类号的训练样本,求出判别函数中的各参数。若以 表示第一类的训练样本,以 表示第二类的训练样本,则对所有训练样本,有 以及 求解这一系列不等式,就可以解得权系数A。 这显然是线性判决函数,前面所述的线性判别函数的各种处理方法也适用于最小距离分类器。 下图是最近邻域分类器的一个例子。 当然,判别函数的形式可以取其它很多种形式,例如高次多项式等。 以两类分类问题为例:已知先验分布P
文档评论(0)