哈工大模式识别第3章讲义.ppt

下载文档 降价啦

9
0
约1.39万字
约 108页
2017-03-27 发布于湖北
举报
版权申诉
保障服务

哈工大模式识别第3章讲义.ppt

1、本文档共108页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

剪辑的过程首先对 ?NT 中每一个Xi在?NR中找到其最近邻的样本Yi(Xi)，用Yi(Xi)表示Yi是Xi的最近邻参考样本。如果Yi与Xi不属于同一类别，则将Xi从 ?NT 中删除。最后从?NT中得到一个经过剪辑的样本集，称为剪辑样本集?NTE 。可用来取代原样本集?N ，作为参考样本集对待识别样本进行分类。　　 ?NT经过剪辑后，要作为新的训练样本集，则?NR 是对其性能进行测试的样本，如发现 ?NT中的某个训练样本对分类不利，就要把它剪辑掉。剪辑样本的过程也可以用k-近邻法进行，即对中的每个样本Xi，找到在中的k个近邻，用k-近邻法判断Xi是否被错分类。剪辑近邻法也可用到多类别情况。剪辑过程也可不止一次。重复多次的称为重复剪辑近邻法。　　重复剪辑算法步骤将样本集?N 随机划分为S个子集，即　　 ?N={?1,?2,…,?s}, s≥3 用最近邻法，以 ?j，j=(i+1)mod(s)为参考集，对 ?j中的样本进行分类，其中i＝1，…，s。去掉步骤2中被错分类的样本。用所有留下的全部样本的构成新的样本集?N 。如该次剪辑过程中没有样本被删除，则停止，否则转步骤1。　　例：两类正态分布样本的重复剪辑原始样本集一次迭代的结果，三次迭代留下的样本算法终止时留下的样本剪辑近邻法错误率的分析利用最近邻法剪辑后得到的样本集进行分类，其错误率P1E(e)总小于原样本集　　　 P1E(e) ≤P(e)　　　　其中P(e)表示用原样本的渐近平均错误率。在P(e)很小，如P(e)0.1情况下可有　　　　 P1E(e) ≈P(e)/2 由于近邻法错误率上界为2P*(两倍贝叶斯错误率)，因而　　　　 P1E(e) ≈ P* 利用k-近邻法进行剪辑得到的样本集进行分类，则在N→∞及k→∞，且K/N→0的条件下有 P1E(e) ≈ P* 该式表明k很大时，剪辑样本法的错误率可收敛于最优情况P*。当然实际上k值不能取得太大。　多类情况，剪辑效果更好。　　 3.8.3.3 压缩近邻法剪辑近邻法所得到的剪辑样本集在样本数量的压缩方面并不十分明显，它的作用在于将原样本集中处于边界处的样本删除掉，但靠近两类中心的大部分样本仍被保留下来。然而按近邻规则来看，这些样本中的大多数对分类决策没什么用处，如能在剪辑的基础上再去掉一部分这样的样本，将有助于进一步缩短计算时间与压缩存储量，这种方法称为压缩近邻法。　　压缩近邻法压缩样本的思想利用现有样本集，逐渐生成一个新的样本集。使该样本集在保留最少量样本的条件下, 仍能对原有样本的全部用最近邻法正确分类，那末该样本集也就能对待识别样本进行分类, 并保持正常识别率。该算法的作法也十分简单，它定义两个存储器，一个用来存放即将生成的样本集，称为Store；另一存储器则存放原样本集，称为Grabbag。算法 [初始化］Store是空集，原样本集存入Grabbag；从Grabbag中任意选择一样本放入Store中作为新样本集的第一个样本。 [样本集生成］在Grabbag中取出第i个样本用Store中的当前样本集按最近邻法分类。若分类错误，则将该样本从Grabbag转入Store中，若分类正确，则将该样本放回Grabbag中，对Grabbag中所有样本重复上述过程。 [结束过程］若Grabbag中所有样本在执行第二步时没有发生转入Store的现象，或Grabbag已成空集，则算法终止，否则转入第二步。　　算法结束时，用store中的样本作为近邻法的训练样本即可。注意：压缩近邻法要在使用剪辑近邻法后使用较好。压缩近邻法得到的样本集及其分界决策面剪辑近邻法得到的样本集虚线表示贝叶斯决策面实线为最近邻法相应的决策域边界分段线性判别函数分段段数同一类样本可以用若干个子类来描述，子类的数目就可作为确定分段段数的依据。本章讨论：样本分布及子类划分已定的情况下，设计分段线性判别函数的问题样本分布及合适子类划分并不知道，则采用聚类（第5章介绍）的方法分段线性判别函数的一般形式分段线性判别函数的一般形式可定义为表示第i类第l段线性判别函数，li为i类所具有的判别函数个数分别是第l段的权向量与阈值权判别规则若：其中：称为第i类的判别函数决策：决策面方程取决于相邻的决策域，如第i类的第n个子类与第j类的第m个子类相邻，则分段线性判别的主要问题每一类的样本数据在特征空间中的分布呈复杂分布时，使用线性