- 1、本文档共81页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
5-特征提取及选择
第五章 特征的选择与提取 §1 类别可分离性判据 §2 特征提取 §3 特征选择 特征提取与选择的基本任务是研究如何从众多特征中求出那些对分类识别最有效的特征,从而实现特征空间维数的压缩,即获取一组“少而精”且分类错误概率小的分类待征. 基本概念 特征提取: 说明: 有时特征提取和选择并不是截然分开的。例如,可以先将原始特征空间映射到维数较低的空间,在这个空间中再进行选择以进一步降低维数;也可以先经过选择去掉那些明显没有分类信息的特征,再进行映射以降低维数。 §1类别可分离性判据 1.准则函数-判据 2.基于类间距离的可分性判据 3.基于概率分布的可分性判据 4.基于熵函数的可分性判据 1.准则函数 特征选择与提取的任务是求出一组对分类最有效的特征,因此我们需要一个定量的准则(或称判据)来衡量特征对分类的有效性。 2.类内类间距离 说明 基于类内类间距离的可分离性判据是一种常用的判据,它 实际上是各类向量之间的平均距离。 2) 具体而言,即J(x)表示各类特征向量之间的平均距离,我们通常认为J(x)越大,可分离性越好。 3) 这种判据优点是计算简单;缺点是当类间距离较小,类内距离较大时,判据仍有可能取得较大的值,而此时的可分离性并不大。 3.基于概率分布的可分性判据 上面介绍的距离准则是直接从各类样本间的距离算出的,没有考虑各类的概率分布,不能确切表明各类交叠的情况,因此与错误概率没有直接联系,下面提出一些基于概率分布的可分性判据. 4.基于熵函数的可分性判据 §2 特征提取 1 按欧氏距离度量的特征提取方法 2 基于判别熵最小化的特征提取 3 两维显示 4 基于主成分变换的特征提取方法 4 基于主成分变换的特征提取方法 在实际问题中,研究多变量问题是经常遇到的,然而在多数情况下,不同指标之间是有一定相关性.由于指标较多,再加上指标之间有一定的相关性,势必增加了分析问题的复杂性.主成分分析就是设法将原来指标重新组合成一组新的相互无关的几个综合指标来代替原来指标,同时根据实际需要从中可取几个较少的综合指标尽可能多地反映原来指标的信息.这种将多个指标化为少数相互无关的综合指标的统计方法叫做主成分分析. 这也是数学上处理降维的一种方法.如下例所示: 主成分分析的基本方法是通过构造原变量的适当的线性组合,以产生一系列互不相关的新信息,从中选出少数几个新变量并使它们含有尽可能多的原变量带有的信息,从而使得用这几个新变量代替原变量分析问题和解决问题成为可能.当研究的问题确定之后,变量中所含“信息”的大小通常用该变量的方差或样本方差来度量. 1)数学模型 易知有: 2)主成分的计算方法 分别以S和R作为∑和ρ的估计,按前面所述的方法求得的主成分称为样本主成分.具体有如下结论: 这时 为了消除量纲的影响,我们可以对样本进行标准化,即令 3) 主成分解释 4 )举例 §3 特征选择 1 最优搜索算法 2 次优搜索法 3 可分性判据的递推计算 作业 5 1 设有两类三维样本,都服从正态分布,且样本均值和协方差矩阵分别为: 2 设样本均值为(1,2),样本的协方差矩阵和相关矩阵分别为: 分支定界法之所以有效,这主要是利用了可分离性判据的单调性,即对有包含关系的特征组Ak,k=1,2,……,I,即有: 可分性判据满足: 2 . 次优搜索法 最优搜索法在有些情况下计算量太大而难以实现,这时不得不放弃最优解而采取计算量较小的次优搜索方法。下面我们介绍一些不同的算法,面对实际问题时可灵活选择。 (1)单独最优特征组合 最简单的方法是计算各特征单独使用时的判据值并加以排队,取前d 个作为选择结果。但我们需要注意的是,即使各特征是统计独立的,这一结果也不一定就是最优结果。 只有当可分性判据J可写为如下两种形式时,这种方法才能选出一组最优的特征来: (2)顺序前进法(SFS) 这是最简单的“自下而上”的搜索方法。每次从未入选的特征中选择一个特征,使得它与已入选的特征组合在一起时所得判据J值为最大,直到特征数增加到d 为止 (3)顺序后退法(SBS) 它与顺序前进法的思路刚好相反。这是一种“自上而下”的方法,从全体特征开始每次剔除一个,所剔除的特征应使仍然保留的特征组的判据J值最大,直到特征数减少到d 为止 和顺序前进法比较,该方法用两个特点:一是在计算过程中可以估计每去掉一个特征所造成可分性的降低;二是由于它的计算是在高维空间中进行的,所以计算量比较大 比方说,在第k步可先用SFS法一个个加入特征到 k+l 个,然后再用SBS法一个个剔去 r 个特征,我们把这样一种算法叫增 l 减 r 法(l–r 法) (4)增 l 减 r 法(l–r 法) 这种方法是基于前两种算法的特点提出的.为了避免前面方法的一旦
您可能关注的文档
- 5-1函数及孤立奇点及其分类.ppt
- 5-1切比雪夫不等式及大数定律.ppt
- 5)第五章雷达回波及识别技术.ppt
- 5-1线性方程组有解及充要条件.ppt
- 5-2 矩阵及特征值、特征向量.ppt
- 5-2 理想低通滤波器、系统及物理可实现性.ppt
- 5-2 线性系统及频率特性.ppt
- 5-2狭义相对论及基本原理 洛伦兹坐标变换 - 副本.ppt
- 5-3利用化学方程式及简单计算.ppt
- 5-3定积分及换元法和分布积分法.ppt
- 基于人工智能教育平台的移动应用开发,探讨跨平台兼容性影响因素及优化策略教学研究课题报告.docx
- 高中生物实验:城市热岛效应对城市生态系统服务功能的影响机制教学研究课题报告.docx
- 信息技术行业信息安全法律法规研究及政策建议教学研究课题报告.docx
- 人工智能视角下区域教育评价改革:利益相关者互动与政策支持研究教学研究课题报告.docx
- 6 《垃圾填埋场渗滤液处理与土地资源化利用研究》教学研究课题报告.docx
- 小学音乐与美术教师跨学科协作模式构建:人工智能技术助力教学创新教学研究课题报告.docx
- 《航空航天3D打印技术对航空器装配工艺的创新与效率提升》教学研究课题报告.docx
- 教育扶贫精准化策略研究:人工智能技术在区域教育中的应用与创新教学研究课题报告.docx
- 《区块链技术在电子政务电子档案管理中的数据完整性保障与优化》教学研究课题报告.docx
- 《中医护理情志疗法对癌症患者心理状态和生活质量提升的长期追踪研究》教学研究课题报告.docx
最近下载
- 四川省绵阳市江油市2020-2021学年九年级上学期期中物理试题(含答案).docx VIP
- (新版)危害因素辨识与风险防控题库及答案解析 .pdf VIP
- 2022年华南农业大学工作人员招聘考试试题及答案.docx VIP
- 人教版小学五年级下册体育教案全集.pdf VIP
- 国有企业基层组织工作条例(试行)在线测试.doc VIP
- 初中常见化学式的默写.docx VIP
- 《基础生态学》(第二版_牛翠娟、孙儒泳、李庆芬)课后思考题答案.doc VIP
- essbase BIEE__学习笔记.ppt VIP
- 初中物理《内能的利用》真题演练含解析.pdf VIP
- TF02EP全自动口服液灌装机使用规程.pdf VIP
文档评论(0)