- 1、本文档共63页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第三章 线性判别分析_非参数判别分类方法-第四次课
分析w1方向之所以比w2方向优越, 可以归纳出这样一个准则:即向量w的方向选择应能使两类样本投影的均值之差尽可能大些, 而使类内样本的离散程度尽可能小。这就是Fisher准则函数的基本思路。 两点说明: 感知准则函数方法只是对线性可分样本集有效,而对线性不可分的样本集,该算法不能收敛。 这一节对感知准则函数的讨论,只是很初步的。但这种利用错误提供的信息,进行自修正的思想意义是十分深远的。这种只解决线性分类的感知器称为单层感知器,在此基础上发展起来的多层感知器在原理上能解决非线性分类、多类划分,以及非线性拟和非线性映射等多种问题。 3.3 分段线性分类器 线性分类器的分界面是一个超平面。当类与类之间不能用任何一个超平面实现划分时, 类间的分界面应是一个超曲面。曲线可以由多个线段近似表达, 曲面可以由多个平面逼近, 因此, 可以用多个超平面近似表达超曲面, 分段线性分类器正是基于这种思路而设计的一种分类器。 3.3.1 分段线性分类器的定义 线性判决函数只能解决线性可分问题。 在线性不可分的情况下,可以采用分段线性判别或二次函数判别等方法。 分段线性判决函数确定的决策面是由若干段超平面组成的。 与线性判别函数相比,分段线性判别函数设计中首先要解决的问题是分段线性判别函数的分段段数问题。 分段段数过少,其分类效果必然要差;但段数又要尽可能少,以免分类判别函数过于复杂,增加分类决策的计算量。 在有些实际的分类问题中,同一类样本可以用若干个子类来描述,这些子类的数目就可作为确定分段段数的依据。 在有些情况下样本分布及合适子类划分并不知道,往往需要采用一种聚类的方法,设法将样本划分成相对密集的子类,然后用各种方法设计各段判别函数。 3.3.2 分段线性距离分类器 正态分布条件下,两类别问题在各特征统计独立、同方差、且先验概率相等情况下,最小错误率决策可按最小距离决策,最小距离分类器的判决函数为 显然最小距离判别方法只有在各类别密集地分布在其均值附近时才有效。 右图所示情况,若企图再用每类一个均值代表点产生最小距离分类器,就会产生很明显的错误率。 在这种情况下,可以将各类别划分成相对密集的子类,每个子类以它们的均值作为代表点,然后按最小距离分类,可以有比较满意的效果。 对样本进行子类的合适划分是分段线性距离分类器性能好坏的一个关键问题。 3.3.3 分段线性分类器设计的一般考虑 设计分段线性分类器的前提条件是有一组已知类别的样本集, 其关键在于解决以下两个问题: (1) 根据样本集确定子类数目及各子类的划分; (2) 利用样本集计算各子类判别函数的权向量和阈值权。 根据已知条件的不同, 可以分别采取不同的方法。 3.4 近邻分类器 最初的近邻法是由Cover和Hart于1968年提出的,是非参数法中最重要的方法之一。 最小距离分类器将各类训练样本划分成若干子类,并在每个子类中确定代表点,一般用子类的均值或邻近均值的某一样本为代表点。实质就是将样本判属于与代表点距离最近的类。 该法的缺点是所选择的代表点并不一定能很好地代表各类,其后果将使错误率增加。 一、最近邻法的原理及判决准则 近邻法的基本思想:以全部训练样本作为“代表点”,计算测试样本与这些“代表点”,即所有样本的距离,并以最近邻者的类别作为决策。 其主要特点就是将样本判属它的最近邻(和它距离最近的代表点)所在的类。 假定有m个类别ω1, ω2, …, ωm的模式识别问题, 每类有Ni(i=1, 2, …, m)个样本, 规定类ωi的判别函数为 二、错误率分析 最近邻法的错误概率比最小错误概率判决准则的错误概率要大,但是当样本数目无限时,它的错误概率不会超过后者的错误概率的一倍。 假设近邻分类器的渐近平均错误概率为P∞, 最小错误概率判决准则的错误概率为P*e , 那么它们之间存在如下关系: 一、k近邻法的原理及判决准则 最近邻分类器的判决思想是将样本判属与它距离最小的样本所属的类。 这种方法的特点是概念容易理解,最近邻样本和待分类样本在距离意义下是最相似的。 其缺点在于受随机噪声影响较大,尤其是在两类的交叠区内。 例如下图有两类样本点。图中有两个待识别样本,其中点1落在第一类较密集的区域内,它属于第一类的可能性较大,但点1的最近邻为第二类的样本,而该样本对于第二类的区域而言属于因较大的随机误差引起的样本;点2落在第二类较密集的区域内,属于第二类的可能性较大,但点2的最近邻为第一类的样本,而该样本对于第一类的区域而言属于因较大的随机误差引起的样本。 对于下图中的样本点, 若按8近邻方法判决, 则点1的8近邻中, k1
文档评论(0)