- 1、本文档共45页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
第8章特征选择
主要内容8.1概述8.2特征的评价准则8.3特征选择的优化算法8.4过滤式特征选择方法8.5包裹式特征选择方法8.6嵌入式特征选择方法
8.1概述特征选择从已有特征中挑选出比较重要的、有代表性的、对分类有利的特征,以便降低样本的维数,降低分类器设计的难度。三个关键问题对特征的要求,即选择什么样的特征具有充分的识别信息量,即应具有充分的可分性。尽可能的独立性,重复的、相关性强的特征不能提供更多信息,只选一个。数量尽量少,同时损失的信息量小。
8.1概述特征选择的标准:即评价准则,衡量特征的可分性、独立性、信息量等,简言之,选出的特征是否有利于分类三个关键问题特征选择的方法:即如何进行特征选择利用待识别对象的特点从特征和分类的角度出发
8.2特征的评价准则希望选出的特征最有利于分类,因此利用分类器的性能度量作为特征的评价准则,例如,错误率等。做法:利用不同的特征组合设计分类器,计算分类器的性能度量值,并从中选出分类器性能最好的一组特征。优点:选出的特征对于分类器而言针对性较强,性能更好。存在的问题:错误率的计算复杂;计算量很大。定义便于计算的类别可分性准则,以衡量一组特征下类之间的可分程度,也称为可分性判据
8.2特征的评价准则评价准则要求与误判概率有单调关系:J最大时,错误率最小当特征相互独立时,判据有可加性判据具有度量特性:具有距离的某些特性对特征数目是单调不减的:加入新的特征,不会使判据减小
8.2特征的评价准则(1)基于类内类间距离的可分性判据若样本可分,必然位于特征空间的不同区域,这些不同的区域之间必定有一定的距离,距离越大,分得越开。所以,可以用距离作为模式分布状态的测度。距离有多种定义方式,均可以作为类别可分性判据,常采用欧氏距离。概述
8.2特征的评价准则相关散布矩阵定义类内散布矩阵:类间散布矩阵:总体类内散布矩阵:??混合散布矩阵?
8.2特征的评价准则可分性判据?
8.2特征的评价准则例题?
8.2特征的评价准则???
8.2特征的评价准则判据优缺点计算方便直观概念清楚没有考虑各类的概率分布,不能确切表明各类重叠情况,与错误概率没有直接联系
8.2特征的评价准则(2)基于概率分布的可分性判据?概述
8.2特征的评价准则?
散度8.2特征的评价准则常用的概率距离度量??散度??对数似然比?
8.2特征的评价准则Chernoff界限s∈[0,1]Bhattacharyya距离?这些量表达了两类模式的差异性,并且具有距离函数的性质,称为概率距离度量。
8.2特征的评价准则例题?
8.2特征的评价准则???
8.2特征的评价准则(3)基于熵函数的可分性判据概述?用具有最小不确定性的特征进行分类最为有利。
8.2特征的评价准则熵在信息论中,熵表示不确定性,熵越大不确定性越大。Shannon熵:广义熵:基于熵的可分性判据JE越小,可分性越好。
8.2特征的评价准则相对熵:交叉熵:??
8.2特征的评价准则(4)基于统计检验的可分性判据采用统计检验的方法可以检验某一变量在两类样本间是否存在显著差异,给出统计量反映这种差别,在两类间有显著差异的特征有利于分类。u-检验t-检验秩和检验
8.2特征的评价准则(5)特征的相关性评价Pearson相关系数?Spearman秩相关系数?相关系数
8.2特征的评价准则互信息?
8.3特征选择的优化算法(1)概述穷举法(全局最优搜索)从n个特征中挑出m个,列举所有可能的组合,计算每个J,以选择最优特征组计算量太大采用某些搜索技术使计算量有所降低非穷举法不能保证结果最优
8.3特征选择的优化算法(2)分支定界算法(BranchAndBound)一种自上而下方法,从包含所有候选特征开始,逐步去掉不被选中的特征,具有回溯功能通过合理地组织搜索过程,使得有可能避免计算某些特征组合而不影响结果为最优主要利用可分离性判据的单调性整个搜索过程可用树表示出来,称为搜索树或解树基本思想
8.3特征选择的优化算法例题??
8.3特征选择的优化算法??
8.3特征选择的优化算法?0????确定后继节点要舍弃的特征
8.3特征选择的优化算法?0?????
8.3特征选择的优化算法?0?????
8.3特征选择的优化算法?0?????
8.3特征选择的优化算法最终搜索树完整的搜索树
8.3特征选择的优化算法避免了部分m个特征组合的判据计算,与穷举相比节约了时间由于搜索过程中要计算中间的判据,在m很小或很接近n时,不如使用穷举法必须采用具有单调性的判据理论上具有单调性的判据,在实际运用样本计算时,可能不再具备单调性算法分析
对每一个特征单独计算类别可分性判据,根据单个特征的判据值排队,选择其中前m个特征前提假设是单独作用时性能最优的特征,组合起来也是性能最优的与
您可能关注的文档
- 模式识别教学大纲.doc
- 模式识别实验指导.doc
- 模式识别 教学建议.docx
- 模式识别 课件 第1章 绪论.pptx
- 模式识别 课件 第2章 贝叶斯决策.pptx
- 模式识别 课件 第3章 概率密度函数的估计.pptx
- 模式识别 课件 第4章 线性判别分析.pptx
- 模式识别 课件 第5章 非线性判别分析.pptx
- 模式识别 课件 第6章 组合分类器.pptx
- 模式识别 课件 第7章 无监督模式识别.pptx
- 2021海湾消防GST-HX-420BEx 火灾声光警报器安装使用说明书.docx
- 2022海湾消防 GST-LD-8316Ex 手自动转换装置安装使用说明书.docx
- (小升初押题卷)江苏省小升初重难点高频易错培优卷(试题)-2024-2025学年六年级下册数学苏教版.docx
- 2023-2024学年吉林省吉林市舒兰市人教版四年级上册期末考试数学试题.docx
- 2023-2024学年北京市密云区北京版四年级上册期末考试数学试卷.docx
- 2024-2025学年广东省广州市天河区人教版三年级上册期末考试数学试卷.docx
- 2024-2025学年河北省唐山市丰南区人教版五年级上册期末测试数学试卷.docx
- 人教版道德与法治一年级下册第4课《我们有精神》课件.pptx
- 消防蝶阀介绍.pptx
- 室外消火栓设置场所及设置要求.pptx
文档评论(0)