第六节其他分类方法.docVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
张学工《模式识别》教学课件 PAGE PAGE 34 Xuegong Zhang, Tsinghua University 第六章 其他分类方法 回顾: 最简单的分段线性分类器:把各类划分为若干子类,以子类中心作为类别代表点,考查新样本到各代表点的距离并将它分到最近的代表点所代表的类。 极端情况,将所有样本都作为代表点 ? 近邻法(Nearest-Neighbor method) 6.1 近邻法(Nearest-Neighbor Method) 6.1.1 最近邻法 样本集 :样本,:类别标号, 样本与之间的距离:比如欧氏距离 对未知样本,求中与之距离最近的样本,(类别为) 则将分到类,即 (或记作) —— 最近邻决策(一近邻决策) 另一种表达方法: 类判别函数 ,, 决策规则: if , then 最近邻法的错误率(渐近分析) 结论: 其中::贝叶斯错误率 :样本无穷多时最近邻法的错误率(渐近平均错误率) 前提:样本集独立同分布 6.1.2 k-近邻法(kNN) 最近邻法(一近邻法)的推广: 找出的k个近邻,看其中多数属于哪一类,则把分到哪一类。 一般表示: 类,,个样本。 ,为的个近邻中属于的样本数 判别函数: , 决策规则: if ,then 渐近平均错误率的界: 无穷大时,越大,的上限越低(越靠近下限)。但应始终是中的一小部分,保证个近邻均充分接近。否则这一关系不成立。 一般来说,总有 或者简化为 问题 ① 存储量和计算量 ② 票数接近时风险较大,有噪声时风险加大 ③ 有限样本下性能如何? 改进: ① 减少计算量和存储量 ② 引入拒绝机制 ③ 根据实际问题修正投票方式 如加权投票,否决票等 如距离加权,考虑样本比例及先验概率等 6.1.3 近邻法的快速算法 近邻法在计算上的问题: 快速算法基本思想: 把样本集分级分成多个子集(树状结构) 每个子集(结点)可用较少几个量代表 通过将新样本与各结点比较排除大量候选样本 只有最后的结点(子集)中逐个样本比较,找出近邻 基本算法:分支定界算法(Branch-Bound Algorithm) 符号约定: :结点对应的样本子集 :中的样本数 :子集中的样本均值(中心点) :中离中心点最远的距离 :当前搜索到的最近邻距离 规则:1. 对新样本,结点 若 则的近邻不可能在中 2. 对新样本,结点中的样本 若 则不是的最近邻 两大步: 事先把样本子集划分好(比如用聚类算法), 计算并存储的,及 用分支定界算法搜索的最近邻 搜索算法:(最近邻) 1? (初始化) 置(当前结点)。 2? (当前结点展开) 把当前结点的直接子结点放入(当前水平的)一个目录表(活动表)中,对它们计算并存储。 (注意:活动表在每个水平上一个,下文均指当前水平的活动表) 3? (检验) 对活动表中每个结点,若,则从表中去掉。 (规则1) 4? (回溯) 若活动表中已无结点,则回到上一级,置 如,则算法终止; 如,则转3?; 若活动表中有结点,则继续5?。 5? (选择最近结点) 在目录表中选择最近结点(最小),记为,以它为当前结点,若当前水平为最终水平,则转6?。 否则,置,转2?。 6? (检验) 对当前结点中的每个, 若,则非最近邻; (规则2) 否则,计算, 若,则置, 中所有被检验过之后,转3?。 算法终止时,输出的最近邻和 (K-近邻时只须修正上述算法的第6?步) 6.1.4 剪辑近邻法 基本理解: 处在两类交界处或分布重合区的样本可能误导近邻法决策。 应将它们从样本集中去掉。 基本思路: 考查样本是否为可能的误导样本, 若是则从样本集中去掉——剪辑。 考查方法是通过试分类,认为错分样本为误导样本。 基本做法: 将样本集分为考试集和参考集: , 剪辑:用中的样本对中的样本进行近邻法分类 剪掉中被错分的样本,中剩余样本构成剪辑样本集 分类:利用和近邻法对未知样本分类。 思考: 将样本集分为考试集和参考集是为了剪辑的独立性,但既然样本都是独立的,可否考虑下面的做法?(借鉴LOOCV) 即:对中每个,用所有其他样本对它分类,若分错则剪掉。 错误率分析(渐近错误率) 1. 若用最近邻剪辑,用最近邻分类,则错误率 即 (P(e|x)、P(e)是近邻法的错误率) 当很小时,如,则有 而 (为贝叶斯错误率)。 故此时接近。 2. 若

文档评论(0)

aa15090828118 + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档