《信息熵特征选择方案.docVIP

  1. 1、本文档共13页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
《信息熵特征选择方案

基于互信息的特征选择 1. 模型 定义D1 病集S由有关心脏病病种(i=1,2,…,n)组成,令患者的疾病信息熵-为: (1) 显然疾病信息熵具有Shannon信息熵的性质,反映了临床中具体病人的客观信息及实际医疗干预过程中所表现的信息在总体特征上的平均不确定性. 定义D2:一个诊断病例库可以表示为关于病例特征的矩阵形式 (2) 其中,—病例库中第个病例的第个属性值; m—病例特征数量; n—病例库规模; 定义D3:一个信息系统(IS)可以表达为 (3) 其中,U 是对象的非空有限集合, R是属性的非空有限集合,是属性值的集合,Vr 表示了属性任意时的属性值范围, 是一个信息函数,它指定U中每一个对象 x 的属性值. 当R中的属性集可进一步分解为条件属性集合C和决策属性集合D,且满足时,信息系统(IS)称为决策系统(DS). ai为某一条件属性,则决策属性D对某一条件属性ai的依赖程度可以利用下式计算-: (4) 式中,RC、RD 分别表示条件属性集合C和策属性集合D在论域上的等价关系.表示RD 相对于RC 的条件熵.的值越大,则条件属性ai对决策属性D的重要性越大.如果,则说明ai对于D不起作用,可以删除.在基于属性信息增益的约简方法中,计算案例库属性集的每个属性的信息增益,并约定属性的信息增益大于某个阈值时就将该属性归入最优属性子集,否则弃用属性. 1.3 基于互信息的特征选择: 三种经典的基于互信息的特征选择算法,分别为信息增益、互信息和交叉熵,以及于互信息最大化的特征选择算法。 结合互信息的计算公式可知,信息增益方法计算出的结果也是一种互信息。若将互信息看成两个随机变量之间的关系,则信息增益表示随机变量C={c1,c2,…,ck}与随机变量T*={t,t}之间的关系,而互信息最大化研究的是随机变量C={c1,c2,…,ck}与随机变量T={t1,t2,…,tm}之间的关系。每个特征的信息增益的计算是独立的,与其它特征的分布无关。而互信息最大化将所有的特征看成一个整体,计算随机变量T所能提供的关于随机变量C的互信息,并计算出每个特征对该互信息的贡献。 苗夺谦等人提出的基于互信息的知识约简算法,是建立在条件属性对决策属性的互信息基础上的;文提出了一种基于互信息增益率的属性约简算法; 颜艳等提出了一种改进的互信息的属性约简算法,基于改进的互信息的启发式算法,并比对互信息、互信息增益率和文中提出的改进的互信息为属性重要性度量方法的启发式知识约简算法。 熵的公式: 联合熵: 条件熵: 联合熵和条件熵的关系: 1.3.1 互信息(MI) 互信息是衡量不考虑特征分布的两个特征之间的一般依赖性. 互信息越大,这两个随机变量之间的联系月越紧密.当互信息趋近于零时,这两者之间相互独立. 特征和类之间的互信息:P(wi)是特征wi的概率, 表示wi没有发生.P(ci)是类cj的概率,P(cj,wi)是类cj与特征wi的联合概率. 是特征之间的互信息. 互信息和信息熵之间的联系: 互信息和信息熵的关系见图1. 图1 互信息和信息熵的关系图 连续型时,(p(x), p(y) 和p(x,y)都是连续的) 计算连续的基因表达变量的熵或互信息,首先要将其离散化,一般采用直方图方法,并根据表达向量的值域范围选择合适的bin值,联合熵计算可采用二维直方图法. 连续变量的互信息计算: 第一种,histogram 方法 (Moddemeijer, 1989),将数据划分成等尺度(直方图)的间隔.该方法在低维度条件下,可以获得满意解;随着数据维度的增多,histogram估算值的精确度呈递减趋势. 第二种,using the continuous kernel based density estimator to approximate I(x;y), as proposed by Kwak and Choi (2002b). 利用基于密度评价者的连续核心近似互信息I(x;y),该方法由Kwak and Choi (2002b)提出. 给出一个变量x的N个样本,近似密度函数为:(基于互信息特征选择标准:?最大的依赖,最大关联, 最小冗余) 其中,是Parzen窗口函数(Parzen window function (Parzen, 1962));是第i个样本;h是窗口宽度.Parzen已证明了,选择适当的和h,当N趋近于无穷时,近似函数趋近于真实的p(x). 通常,可用高斯窗口(Gaussian window): 其中,,d是样本x的维度,是z的协方差, 以上计算可以利用peng制作的matlab的互信息计算工具包. /matlabcentral/fileexchang

文档评论(0)

tiantiande + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档