- 1、本文档共76页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第九章 特征选择与降维 §9-1 单个特征的评价 ;一. K-W 检验;
(9.1)
在实用中一般只需比较各特征的H值,H越大时,特征的分
类能力越强。
例9.1 设有N=10个样品,共分m=2类,每个样品取4个特征,
用K-W检验比较特征的分类能力。原始资料矩阵见表9.1。 ; 首先对 将各样品按值大小编号, 所对应的 值最
小(0.18)。编号为第1号, 编为第2号,全部编号结果列在表9.2
的第一行中。于是有
表9.2 对于各样品的重新编号; 对于 分别有 , , 。所以特
征 的分类能力最强, 次之, 最差。
K-W检验的原理是清楚的。
首先,式(9.1)括号中的(N+1)/2是全体样品编号的均值,
而 是各类样品编号的均值,因此H实际上相当于特征x对应
编号的组间离差。
其次,用编号代替特征x的原有取值也是不难理解的。在表
9.1中,两类样品所对应的特征 的原有取值的平均值都是0.7,
即两类均值完全相同。
从这一事实来看, 应该是一个很坏的特征。但是,用 对
样品分类时,如果取0.4和0.5之间的某个数,例如0.45作为分界
点,被分错的却只有一个点 。这又说明 这个特征不太坏。
那么何以会出现两类均值相同的现象呢?不难看出,这是由于;点 的 值太大而造成的结果。用编号代替特征则可以排
除这种干扰。因为编号只反映特征的大小顺序,而不考虑其数
值。; ; 在图9.1中可以看到,在 的直方图中两类样品可以比较清楚地分开,而在特征 的直方图则有较多的混淆现象。因此,直方图可以作为检验特征分类能力的一种工具。
从直方图出发可以构造所谓可接受的运算特征(ROC)曲线。一个一般的直方图如图9.2(a)所示。任意取x轴上一点t作为分界点。第一类样品被判错部分的面积记为α,第二类被判错部分记作β,不断改变t的位置,并将点(α,1-β)画在平面上,便形成图9.2(b)中的ROC曲线。图中的面积A表示特征x的分类能力,A越大,x的分类能力越强。
现在我们来做例9.1中特征 的ROC曲线,使t从 开始逐渐增加直到 ,对应的α和β值记在表9.3中,ROC曲线见图9.2(c)。
; 从直方图出发还可以设计另外的特征选择方法。例如,在图9.1(a)中把两类中互不混淆的部分分别记作 和 。当有多个特征时,先从中挑选一个使 之值最大的特征,并且去掉那些可以用这个特征分开的样品,再从剩下的样品中挑选其他的特征。
表9.3 特征的ROC曲线计算步骤;三.利用不确定性选择特征;例9.2 设有40个样品点共分两类,其中某特征x的变化范围
在0.20到0.90之间。将这个范围分为两段,所得结果列在表
9.4中。
; 由表9.4求出A=0.8089。熵的原理可以用两个极端的例子说明。在上例中,若第一段中只有第一类样品而第二段内只有第二类样品,则
最后得到A=0。另一方面,如果每段内的两类样品数都相等,则
最后得到 。以上两种情形分别对应于x的分类能力最强和最弱的两种状态。;四.用于有序样品的特征选择方法; 例 9.3 假设已知10各样品点 ,按照下标从小到大的次序排列,x是用描述这些样品点的一个特征,它的取值如表9.5所示。
由表9.5可见,x共有3种可能的取值:0,1,2。做出x的直方图,并计算x的每种取值出现的概率,见表9.6。; 我们假设把样品点 想象为上文中所说的时间段,而把特征x想象为每段时间前的若干年内6.0-6.9级地震的发生次数。根据这种想象,x在不同时间段上的先后取值应该是有联系的,而不能认为是独立的随机变量。由这一假定出发,我们建立描述这种先后联系关系的转移概率矩阵P。P通过以下两步算出:
(1) 求矩阵 ,
您可能关注的文档
最近下载
- 9.2 液体压强 课件(共33张PPT)人教版(2024)物理八年级下册.pptx VIP
- 北师大版五年级下册数学教学计划.doc VIP
- 小学数学冀教版六年级下《用正、负数表示意义相反的量》说课课件(共22张PPT).pptx
- 2021-2024年数学竞赛AIME II真题含答案(共4套).pdf
- 剑桥英语 中级班 听力脚本.doc
- 杜仲叶提取物在制备治疗卵巢癌的药物中的应用.pdf VIP
- 人教版美术七年级下册第一单元第2课《生活之美》 课件.pptx
- 2025年1月浙江省高考化学试卷(含答案).pdf
- 2024年辽宁省大连市中考数学试卷(含答案及解析).docx
- 2025年新苏教版数学一年级下册整册课件.pptx
文档评论(0)