北京邮电大学信息工程学院 第九章 特征选择与降维 §9-1 单个特征的评价 一. K-W 检验 K-W(Kruskal and Wallis)检验是一种常用的特征选择方法。 假定要检验某个特征x对于分类的有效程度,已知一批样品共有N 个,这批样品分为m类,第i类包括品, ,则检 验方法如下: (1) 列出全部样品对应的特征x的取值。 (2) 按照x取值从小到大的顺序给每个样品编号。例如,x取 值最小的样品编号为1, x取值次小的样品编号为2,等等。 若有几个样品所对应的x值相同,可以对它们随机编号,也 可以采用平均也可以采用随机编号的办法。 (3) 取每类各样品编号的平均值,分别记作 。 (4) 计算统计量H,公式为: (9.1) 在实用中一般只需比较各特征的H值,H越大时,特征的分 类能力越强。 例9.1 设有N=10个样品,共分m=2类,每个样品取4个特征, 用K-W检验比较特征的分类能力。原始资料矩阵见表9.1。 首先对 将各样品按值大小编号, 所对应的 值最 小(0.18)。编号为第1号, 编为第2号,全部编号结果列在表9.2 的第一行中。于是有 表9.2 对于各样品的重新编号 对于 分别有 , , 。所以特 征 的分类能力最强, 次之, 最差。 K-W检验的原理是清楚的。 首先,式(9.1)括号中的(N+1)/2是全体样品编号的均值, 而 是各类样品编号的均值,因此H实际上相当于特征x对应 编号的组间离差。 其次,用编号代替特征x的原有取值也是不难理解的。在表 9.1中,两类样品所对应的特征 的原有取值的平均值都是0.7, 即两类均值完全相同。 从这一事实来看, 应该是一个很坏的特征。但是,用 对 样品分类时,如果取0.4和0.5之间的某个数,例如0.45作为分界 点,被分错的却只有一个点 。这又说明 这个特征不太坏。 那么何以会出现两类均值相同的现象呢?不难看出,这是由于 二.直方图方法 点 的 值太大而造成的结果。用编号代替特征则可以排 除这种干扰。因为编号只反映特征的大小顺序,而不考虑其数 值。 在图9.1中可以看到,在 的直方图中两类样品可以比较清楚地分开,而在特征 的直方图则有较多的混淆现象。因此,直方图可以作为检验特征分类能力的一种工具。 从直方图出发可以构造所谓可接受的运算特征(ROC)曲线。一个一般的直方图如图9.2(a)所示。任意取x轴上一点t作为分界点。第一类样品被判错部分的面积记为α,第二类被判错部分记作β,不断改变t的位置,并将点(α,1-β)画在平面上,便形成图9.2(b)中的ROC曲线。图中的面积A表示特征x的分类能力,A越大,x的分类能力越强。 现在我们来做例9.1中特征 的ROC曲线,使t从 开始逐渐增加直到 ,对应的α和β值记在表9.3中,ROC曲线见图9.2(c)。 从直方图出发还可以设计另外的特征选择方法。例如,在图9.1(a)中把两类中互不混淆的部分分别记作 和 。当有多个特征时,先从中挑选一个使 之值最大的特征,并且去掉那些可以用这个特征分开的样品,再从剩下的样品中挑选其他的特征。 表9.3 特征的ROC曲线计算步骤 三.利用不确定性选择特征 不确定性或熵是信息论中的概念。假定要考查某个特征 x的分类能力。首先把x的取值范围分为k段,把样品点落到其中第j段的频率记作 。又设样品共有m类,把第i类样品点落到第j段的频率记作 。然后计算熵: 熵越小则x的分类能力越强。 例9.2 设有40个样品点共分两类,其中某特征x的变化范围 在0.20到0.90之间。将这个范围分为两段,所得结果列在表 9.4中。
您可能关注的文档
- 潍坊2017年4月水环境质量情况.doc
- 莆田城厢区农村污水处理一期ppp项目.doc
- 莆田学院2017年团拜会设备租赁清单.doc
- 莆田学院毕业论文设计教学管理指标体系修订.doc
- 潍坊技术发明奖推荐书.doc
- 莆田学院馆藏数字化项目.doc
- 莆田推进城乡公交客运一体化工作方案.doc
- 莆田第三水厂建设工程主要材料及设备采购阀门类.doc
- 莆田荔城污水处理厂提标改造工程EPC总承包项目.doc
- 莒南板泉镇第二初级中学学校创意法教育实施效果统计.doc
- 2025年氢燃料无人机动力系统优化报告.docx
- 2026年绿色金融五年发展机制与投资机构行为分析报告.docx
- 2026年基础教育公平深化:资源配置机制与政策效果行业报告.docx
- 2026广东佛山南海区里水镇里水小学招聘4人备考试题附答案.docx
- 2026年铁门关职业技术学院单招职业适应性测试题库完美版.docx
- 2026河北银行张家口分行支行行政综合岗招聘备考题库附答案.docx
- 2026新疆和田地区兴和集团腾达运输有限公司招聘备考题库附答案.docx
- 2026广东韶关南雄农商银行春季校园招聘备考试题附答案.docx
- 2026华福证券研究所国际关系&政策团队招聘备考题库附答案.docx
- 2026广西百色市西林县融媒体中心招聘编外聘用人员2人备考题库附答案.docx
最近下载
- 计算材料学课件:能带计算.ppt VIP
- 在线网课学堂《心理统计》单元考核测试答案.pdf VIP
- 《手术烟雾安全指南(2022版)》解读.pdf VIP
- 2024-2025学年扬州八年级数学下学期第一次月考卷【测试范围:苏科版八年级下册第七章-第九章】(全解全析).pdf VIP
- 世界贸易组织WTO规则课件(1-5).ppt VIP
- (六个对照)加强理论武装、执行上级组织决定、严格组织生活、加强党员管理监督、做好群众工作、抓好自身建设党支部2025年度组织生活会班子对照检查材料.docx VIP
- 2025年咸阳职业技术学院高职单招职业技能考试题库完整版带答案解析.docx VIP
- 光纤通信系统 第4版 习题及答案 沈建华 第1--4章.pdf
- 建筑施工测量培训课件.ppt VIP
- CNAS管理评审报告.docx VIP
原创力文档

文档评论(0)