- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
哈工大模式识别第3章解析
3.8.3.1 近邻法的快速算法 这种方法着眼于只解决减少计算量,但没有达到减少存储量的要求。 其基本思想是: 将样本集按邻近关系分解成组,给出每组的质心所在,以及组内样本至该质心的最大距离。 这些组又可形成层次结构,即组又分子组 因而待识别样本可将搜索近邻的范围从某一大组,逐渐深入到其中的子组,直至树的叶结点所代表的组,确定其相邻关系。 包括2个阶段:1.样本集分级分解;2. 搜索算法 样本集分级分解 3.8.3.2 剪辑近邻法 快速算法只是研究如何减少计算量的问题,而不考虑存储量的压缩。 实际上由于对样本进行分层次分组,并附有一些参数,实际的存储量还有可能增加。 本节讨论的算法着眼于如何减少模板样本数目,从而可同时减少分类时的计算量及模板样本的存储量,同时还能进一步改进分类器的性能,如降低错误率等要求。 剪辑近邻法的基本思想 近邻法分类的错误率产生的主要原因:作为识别用的参考样本集中,交迭区域中不同类别的样本彼此穿插。 如果能将交界处的样本以适当方式筛选,剪辑掉容易引起错分的样本,则可以实现既减少样本数又提高正确识别率的双重目的。 可以利用现有样本集对其自身进行剪辑。 本课程主要讨论两类样本的剪辑。 1、两分剪辑近邻法 1)将参考样本集AN (样本数量为N)分成两个互相独立的子集。 一个被当作考试集ANT ,另一个作为参考集ANR ,数量分别为NT与NR,NT+NR=N。将ANT中的样本表示成Xi ,而在ANR中的样本表示为Yi . 样本集分成两个相互独立的样本子集:分完以后的两个子集具有相同的分布。在每个特征空间的子区域,两个子集都有相同的比例,或说各类数量近似相等。 实际中,每个子区域(从大空间到小空间)是从总的集合中随机抽取的方式进行。(难以满足独立同分布要求) 2) 剪辑的过程 将 ANT 中每一个Xi在ANR中找到其最近邻的样本Yi(Xi) 。如果Yi与Xi不属于同一类别(说明Xi在边界附件的交叠区中),则将Xi从 ANT 中删除。 对ANT中的所有样本重复1~2,结束时从ANT中得到一个经过剪辑的样本集,称为剪辑样本集ANTE 。 ANTE可用来取代原样本集AN ,作为参考样本集对待识别样本进行分类。 剪辑样本的过程也可以用k-近邻法进行,即对ANT 中的每个样本Xi,找到在ANR 中的k个近邻,用k-近邻法判断Xi是否被错分类。 剪辑近邻法也可用到多类别情况。类数增加时,剪辑效果更好。 剪辑过程也可不止一次。重复多次的称为重复剪辑近邻法。 2、(多分)重复剪辑近邻法 将样本集AN 随机划分为S个子集,即 AN={A1,A2,…, As}, s≥3 用最近邻法,以 Aj,j=(i+1)mod(s)为参考集,对 Ai中的样本进行分类,其中:i=1,2,…,S。 去掉步骤2中被错分类的样本(即:对Ai剪辑)。 用所有留下的全部样本的构成新的样本集AN 。 如该次剪辑过程中没有样本被删除,则停止,否则转步骤1,重复1~5。 (之所以重复,是因为步骤1中划分子集是随机的,不能保证各子集独立同分布,因此,1次剪辑不能完全去掉交叠区的样本) 例:两类正态分布样本的重复剪辑 原始样本集 , 存在交叠区 一次迭代的结果, 交叠区没剪干净 算法终止时留下的样本 边界干净,无交叠区 三次迭代的结果, 交叠区中只有少量样本 两类非正态分布样本的重复剪辑 * 左上:初始样本集 及Bayes分界面(虚线) 右上:第1次剪辑后 的样本集 下:剪辑结束后 的样本集及最近邻法分界面(实线) 最近邻法剪辑的错误率 利用最近邻法剪辑后得到的样本集进行分类,其错误率P1E(e)总小于原样本集 P1E(e) ≤P(e) 其中P(e)表示用原样本的渐近平均错误率。 在P(e)很小,如P(e)0.1情况下可有 P1E(e) ≈P(e)/2 由于近邻法错误率上界为2P*(两倍贝叶斯错误率),因而 P1E(e) ≈ P* k近邻法剪辑的错误率 利用k-近邻法进行剪辑得到的样本集进行分类,则在N→∞及k→∞,且K/N→0的条件下有 P1E(e) ≈ P* 该式表明k很大时,剪辑样本法的错误率可收敛于最优情况P*。当然实际上k值不能取得太大。 3.8.3.3 压缩近邻法 剪辑近邻法性能: 样本集的紧致性得到改善,分类错误率大大降低,接近bayes错误率; 样本集数量减少,可提高计算速度及减少存储量 剪辑近邻法的不足:样本数量的压缩不明显。只将原样本集中处于边界处的样本删掉,但靠近两类中心的大部分样本仍被保留下来(因而在速度和存储量上的改善有限)。 剪辑近邻法的改进:按近邻规则来看,(对无交叠区的样本)远离边界的样本点对决策无用,如能去掉
您可能关注的文档
最近下载
- 烟草考试真题及答案.doc VIP
- 2025年最新人教版八年级(初二)数学上册教学计划及进度表(新课标,新教材).docx
- 外研版高中《英语》(新标准)选择性必修一Unit1 单元整体教学设计附作业设计.docx VIP
- 5.1《论语》十二章 课件(共48张PPT)统编版高中语文选择性必修上册.pptx VIP
- 计算机网络实验报告(8)网络地址转换NAT配置、网络端口地址转换NAPT配置.pdf VIP
- 工程材料及成形技术基础-全套PPT课件.pptx
- 单证员考试试题.pdf VIP
- 地面空压机安装技术措施.docx VIP
- 工程建设法规的案例.ppt VIP
- 农产品食品检验员职业技能竞赛理论考试题库(含答案).docx VIP
文档评论(0)