- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
张学工《模式识别》教学课件
PAGE
PAGE 34
Xuegong Zhang, Tsinghua University
第六章 其他分类方法
回顾:
最简单的分段线性分类器:把各类划分为若干子类,以子类中心作为类别代表点,考查新样本到各代表点的距离并将它分到最近的代表点所代表的类。
极端情况,将所有样本都作为代表点 ? 近邻法(Nearest-Neighbor method)
6.1 近邻法(Nearest-Neighbor Method)
6.1.1 最近邻法
样本集
:样本,:类别标号,
样本与之间的距离:比如欧氏距离
对未知样本,求中与之距离最近的样本,(类别为)
则将分到类,即 (或记作)
—— 最近邻决策(一近邻决策)
另一种表达方法:
类判别函数 ,,
决策规则: if , then
最近邻法的错误率(渐近分析)
结论:
其中::贝叶斯错误率
:样本无穷多时最近邻法的错误率(渐近平均错误率)
前提:样本集独立同分布
6.1.2 k-近邻法(kNN)
最近邻法(一近邻法)的推广:
找出的k个近邻,看其中多数属于哪一类,则把分到哪一类。
一般表示: 类,,个样本。
,为的个近邻中属于的样本数
判别函数: ,
决策规则: if ,then
渐近平均错误率的界:
无穷大时,越大,的上限越低(越靠近下限)。但应始终是中的一小部分,保证个近邻均充分接近。否则这一关系不成立。
一般来说,总有
或者简化为
问题
① 存储量和计算量
② 票数接近时风险较大,有噪声时风险加大
③ 有限样本下性能如何?
改进:
① 减少计算量和存储量
② 引入拒绝机制
③ 根据实际问题修正投票方式
如加权投票,否决票等
如距离加权,考虑样本比例及先验概率等
6.1.3 近邻法的快速算法
近邻法在计算上的问题:
快速算法基本思想:
把样本集分级分成多个子集(树状结构)
每个子集(结点)可用较少几个量代表
通过将新样本与各结点比较排除大量候选样本
只有最后的结点(子集)中逐个样本比较,找出近邻
基本算法:分支定界算法(Branch-Bound Algorithm)
符号约定:
:结点对应的样本子集
:中的样本数
:子集中的样本均值(中心点)
:中离中心点最远的距离
:当前搜索到的最近邻距离
规则:1. 对新样本,结点
若
则的近邻不可能在中
2. 对新样本,结点中的样本
若
则不是的最近邻
两大步:
事先把样本子集划分好(比如用聚类算法),
计算并存储的,及
用分支定界算法搜索的最近邻
搜索算法:(最近邻)
1? (初始化)
置(当前结点)。
2? (当前结点展开)
把当前结点的直接子结点放入(当前水平的)一个目录表(活动表)中,对它们计算并存储。
(注意:活动表在每个水平上一个,下文均指当前水平的活动表)
3? (检验)
对活动表中每个结点,若,则从表中去掉。
(规则1)
4? (回溯)
若活动表中已无结点,则回到上一级,置
如,则算法终止;
如,则转3?;
若活动表中有结点,则继续5?。
5? (选择最近结点)
在目录表中选择最近结点(最小),记为,以它为当前结点,若当前水平为最终水平,则转6?。
否则,置,转2?。
6? (检验)
对当前结点中的每个,
若,则非最近邻; (规则2)
否则,计算,
若,则置,
中所有被检验过之后,转3?。
算法终止时,输出的最近邻和
(K-近邻时只须修正上述算法的第6?步)
6.1.4 剪辑近邻法
基本理解:
处在两类交界处或分布重合区的样本可能误导近邻法决策。
应将它们从样本集中去掉。
基本思路:
考查样本是否为可能的误导样本,
若是则从样本集中去掉——剪辑。
考查方法是通过试分类,认为错分样本为误导样本。
基本做法:
将样本集分为考试集和参考集: ,
剪辑:用中的样本对中的样本进行近邻法分类
剪掉中被错分的样本,中剩余样本构成剪辑样本集
分类:利用和近邻法对未知样本分类。
思考:
将样本集分为考试集和参考集是为了剪辑的独立性,但既然样本都是独立的,可否考虑下面的做法?(借鉴LOOCV)
即:对中每个,用所有其他样本对它分类,若分错则剪掉。
错误率分析(渐近错误率)
1. 若用最近邻剪辑,用最近邻分类,则错误率
即 (P(e|x)、P(e)是近邻法的错误率)
当很小时,如,则有
而 (为贝叶斯错误率)。
故此时接近。
2. 若
您可能关注的文档
- 第二节地区电子政务发展案例(2).ppt
- 第二节第三课时方程组.ppt
- 第二节点、直线、平面之间位置关系.doc
- 第二节房地产开发项目选择和土地使用权获取方式.ppt
- 第二节分子晶体.ppt
- 第二节服务需求一览表.doc
- 第二节钢筋混凝土工程.ppt
- 第二节化学热力学初步.ppt
- 第二节建立顾客满意、价值和关系.ppt
- 第二节建筑工程消耗量定额.ppt
- 中国国家标准 GB/T 31270.16-2025化学农药环境安全评价试验准则 第16部分:土壤微生物毒性试验.pdf
- 中国国家标准 GB/T 31270.17-2025化学农药环境安全评价试验准则 第17部分:天敌赤眼蜂急性毒性试验.pdf
- GB/T 31270.17-2025化学农药环境安全评价试验准则 第17部分:天敌赤眼蜂急性毒性试验.pdf
- 《GB/T 31270.17-2025化学农药环境安全评价试验准则 第17部分:天敌赤眼蜂急性毒性试验》.pdf
- GB/T 31270.15-2025化学农药环境安全评价试验准则 第15部分:蚯蚓急性毒性试验.pdf
- 一级建造师《民航机场实务》河北省张家口市下花园区2026年高分冲刺试卷含解析.doc
- 2026年河南省信阳市商城县一级建造师《市政工程》高分冲刺试卷含解析.doc
- 一级建造师《矿业工程管理与实务》浙江省绍兴市上虞市2026年押题密卷含解析.doc
- 机动车转让简单版的协议书范本.docx
- 有关和解简单版协议书范本.docx
最近下载
- 2.8+夏商周时期的科技与文化++课件++++2025-2026学年统编版七年级历史上册.pptx VIP
- 第8课 夏商周时期的科技与文化 同步练习(含答案) 2025-2026学年历史统编版(2024)七年级上册.docx VIP
- 沸石转轮选型计算书.xlsx VIP
- T-CECS 1049-2022 隧道衬砌拱顶带模注浆材料应用技术规程.docx VIP
- 2025年春最新国家开放大学《毛泽东思想和中国特色社会主义理论体系概论》专题测验1-8参考答案.pdf VIP
- 沸石转轮+RTO设备设计计算书.xlsx VIP
- 合伙人招募计划方案.docx VIP
- 标准图集-20S515-钢筋混凝土及砖砌排水检查井.pdf VIP
- 沸石转轮 RTO设计方案.docx VIP
- (完整版)高标准农田建设施工组织设计.pdf VIP
原创力文档


文档评论(0)