8.2 统计模式识别 - 东南大学自动化学院.ppt

下载文档 降价啦

25
1
约5.08千字
约 92页
2018-01-07 发布于天津
举报
版权申诉
保障服务

8.2 统计模式识别 - 东南大学自动化学院.ppt

1、本文档共92页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

8.2 统计模式识别 - 东南大学自动化学院

典型模式识别系统图像识别系统 8　图像识别 8.1 概述模式可以定义为物体的描述。由于描述这个词的意义比较广泛，有人把它推广到图像数据本身，因为图像数据也是相应事物的一种描述，只不过这样的描述不够抽象和简要而已。前章中我们已经讨论过图像的各种特征和描述的提取方法。因此，我们将模式解释为物体的较抽象的特征和描述。模式可以是以矢量形式表示的数字特征；　　也可以是以句法结构表示的字符串或图；　　还可以是以关系结构表示的语义网络或框架结构等。对于上述三种类型的模式，必须分别使用不同的识别和推理方法：统计模式识别，句法模式识别和人工智能方法。特征选择　　所要提取的应当是具有可区别性、可靠性、独立性好的少量特征。　　　因此特征选择可以看作是一个(从最差的开始)不断删除无用的特征和组合有关联的特征的过程，直到特征的数目减少到易于驾驭的程度，同时分类器的性能仍能满足要求为止。每类的每一个特征均值：　　　　假设训练样本中有　个不同类别的样本。令　表示第　类的样本数，第　类中第　个样本的两个特征分别记为　　和　　。　　每类的每一个特征均值：　　　　　　　　　　　　　　　　　　和　　注意：仅是两个值基于训练样本的估计值，而不是真实的类均值。特征方差　　　　　　第　类的特征　和特征　的方差估值分别为：　　　　　　　　和　　在理想情况下同一类别中所有对象的特征值应该很相近。特征相关系数　第　类特征　和特征　的相关系数估计为　　　它的取值范围为　　　　。　　如果=0，说明这两特征之间没有相关性；接近+1表示这两个特征相关性强；为-1表示任一特征都与另一特征的负值成正比。　　因此，如果相关系数的绝对值接近1，则说明这两个特征可以组合在一个特征或干脆舍弃其中一个。类间距离　　一个特征区分两类能力的一个指标是类间距离，即类均值间的方差归一化间距。显然，类间距离大的特征是好特征。　对特征　来说，第　类与第　类之间的类间距为：降维　　有许多方法可以将两个特征　和　合成为一个特征　，一个简单的方法是用线性函数：　　　　由于分类器的性能与特征幅值的缩放倍数无关，可以对幅值加以限制，如　　　因此　其中　是一个新的变量，它决定　和　在组合中的比例。　　如果训练样本集中每一对象都对应于二维特征空间(即平面　　)中的一个点，上式描述了为所有到在　轴(与　轴成　角)上的投影。显然应选取使得类间距最大的或者满足评价特征质量的其它条件的　。 8.2 统计模式识别 8.2.1 基本概念　　这里我们讨论数字特征的识别。其前提是，假定我们所处理的模式每一个样本都表示为N维特征矢量，写为：　　显然，特征矢量可以表示为N维特征矢量空间中的一个点，这样统计模式识别的概念及方法就可以在特征空间中予以研究。语言定义为某一字符集上的任一句子集合，该集合不一定是有限的。给定了字符集、句子、语言的基本定义之后，仅仅明确了下述问题：字符组成句子，句子组成语言。字符究竟是按照什么规则组成句子，进而组成语言？这有待于对语法的研究。与任何一种自然语言一样，语法在形式语言中起中心作用。句法模式识别中的各个环节，都是围绕着语法进行研究的。 8.3.2 高维语法经典形式语言中定义的语法，原是为自然语言理解设计的，因此，它只处理字符串组成的语言。字符串是一维级联的，难以表达结构信息，为了更好地描述物体的各部分空间联接关系，提出了不少高维语法。这里简单介绍图像描述语言(PDL)和树语法。一、??? 图像描述语言(PDL) 图像描述语言主要用于图形形状结构，其基元是有向线段，该线段有头和尾，线段之间的连接方式与矢量运算相仿。表示成图中的加、“x”乘和“*”乘。例子：其中“ ”表示有向线段d的反向。显然，该语法产生的语言是：它描述的图形结构为 P：死区问题？ DAG 在判决函数完全获得定义之后，分类器的设计才算结束，可以用于分类。通常，线性判别函数中的权系数是用训练或称学习的方法获得的。为了讨论上的方便，先考虑两类问题。所谓训练，就是给定一组已经标定好类号的训练样本，求出判别函数中的各参数。若以表示第一类的训练样本，以表示第二类的训练样本，则对所有训练样本，有以及求解这一系列不等式，就可以解得权系数A。这显然是线性判决函数，前面所述的线性判别函数的各种处理方法也适用于最小距离分类器。下图是最近邻域分类器的一个例子。当然，判别函数的形式可以取其它很多种形式，例如高次多项式等。以两类分类问题为例：已知先验分布P