基于互信息的二进制区分矩阵特征约简方法.pdfVIP

  • 5
  • 0
  • 约 6页
  • 2016-03-09 发布于天津
  • 举报

基于互信息的二进制区分矩阵特征约简方法.pdf

基于互信息的二进制区分矩阵特征约简方法.pdf

第 4O卷 第 8期 西 南 师 范 大 学 学 报 (自然科学版) 2015年 8月 Vo1.40 No.8 JournalofSouthwestChinaNormalUniversity(NaturalScienceEdition) Aug. 2015 基于互信息的二进制区分矩阵特征约简方法① 项 海 飞 温州职业技术学 院 公共教学部 ,浙江 温州 325035 摘要 :基于互信息度量的特征约简是一种重要 的Filter特征约简方法 ,其 目的是剔除条件特征 中与决策类别不相关 的特征,并使约简子集中特征间的相关性最小.为此 ,本文基于特征间的区分性评价准则,提 出了互信息下二进制 区分矩阵的特征约简模型,并从理论上证明了二进制区分矩阵模型与互信息模型下特征约简的等价性;其次给出 了条件特征的重要性度量准则,并利用渐进式计算方法构造 了一种快速的特征约简算法 ;最后通过实验进一步验 证 了算法 的可行性 . 关 键 词 :互信息;特征约简;不可区分矩阵;粗糙集 中图分类号:TP18 文献标 志码 :A 文章编 号 :i000—5471(2015)8—0033—06 特征约简 (属性约简)是数据挖掘 、知识发现与机器学习中的重要难题之一 ,因为特征约简结果的好坏 直接关系到分类器的分类性能.特征选择是从高维数据 中剔除与决策类别不相关 的子集 ,从而寻找到一组 相对有效的特征子集 ,以达到降低数据的空间维度 的过程口 ]. 目前是利用互信息来度量条件特征的重要性 ,即根据已选定特征子集的前提下通过候选条件特征与决 策类别的依赖程度来度量特征的重要性.文献[4]利用互信息的评价 函数度量候选特征与决策类别之间的 互信息大小 ,依次选择特征存人特征约简子集 中,直到满足约简条件 ,但未考虑特征之间可能存在 的关联 性.文献[5]提出了一种新的基于互信息的特征约简方法 ,该方法详细分析特征之间的关联性,并通过计算 不同的特征子集与决策类别的互信息大小来选择相对最优 的特征子集 ,并存入特征约简结果 中.文献[6] 提出了一种基于互信息最大化原则的特征选择算法.文献[7]构造 了基于互信息的近似约简模型,并将其 应用于信息安全的评估 中.文献[8—9]分别将互信息扩展到了信息检索模型和模糊决策树模型 中,推广了 互信息的应用范围.上述各种约简方法的出发点是从数据 中寻找相对最优特征子集 ,计算量较大,算法的 计算效率有待提高.近年来 ,一些学者从特征之间的区分性出发 ,利用二进制 区分矩阵设计了特征约简算 法[1”],二进制区分矩阵便于计算机计算,且所需的存储空间较小,已成为一种较有效计算特征约简的 方法 . 本文基于特征间的区分性评价准则 ,提出了一种互信息下二进制区分矩阵的特征约简方法 ,并从理论 上证 明了二进制区分矩阵模型与互信息模型下特征约简的等价性 ,同时利用渐进式计算方法构造了一种快 速的特征约简算法 ,最后通过实验验证了算法的可行性. 1 基本概念 定义 1 五元组知识表达系统 S一 (u,C,D,V,-厂),简称决策系统.其 中,U一 {z ,z ,…,z}表 ① 收稿 日期 :2014—06—12 基金项 目:浙江省 自然科学基金资助项 目(LY13F020024). 作者简介 :项海飞(1980一),女 ,浙江乐清人 ,硕士 ,讲师,主要从事计算智能与粗糙集理论方面的研究 34 西南师范大学学报 (自然科 学版) 第4O卷 示非空的对象集 ,C一 {c,c,…,c}表示非空的条件特征集 ,D一 {d ,d ,…,d )表示非空的决策特 征集 (为便于讨论 ,下文用D= {d}进行简单表示.).V— U V ,V 是每个特征a的值域.-厂:u×(cU D)一 是一个信息函数 ,表示知识表达系统中每个对象的赋值. 定义 2 五元组S一 (U,C,D,V,厂)为决策系统 ,任意特征子集Q C,己,/ⅢD(Q)一 {X ,X ,… , X ),在决策系统 S中概率分布的计算方法如下 : 厂 X1 X2 …

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档