信息熵_特征选择方案.docVIP

下载本文档

35
0
约1.15万字
约 13页
2017-04-28 发布于北京
举报
版权申诉

信息熵_特征选择方案.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

信息熵_特征选择方案

基于互信息的特征选择 1. 模型定义D1 病集S由有关心脏病病种（i=1，2，…，n）组成，令患者的疾病信息熵马笑潇, 黄席樾, 等. 基于信息熵的诊断过程认知信息流分析[J]. 重庆大学学报：自然科学版, 2002,25(5):25-28. - 王园, 吉国力, 魏磊. 信息熵在临床定量诊断分析中的研究及应用[J]. 厦门大学学报：自然科学版, 2004,43(B08):353-356. 为： (1) 显然疾病信息熵具有Shannon信息熵的性质，反映了临床中具体病人的客观信息及实际医疗干预过程中所表现的信息在总体特征上的平均不确定性. 定义D2：一个诊断病例库可以表示为关于病例特征的矩阵形式 (2) 其中，—病例库中第个病例的第个属性值； m—病例特征数量； n—病例库规模；定义D3：一个信息系统（IS）可以表达为 (3) 其中，U 是对象的非空有限集合， R是属性的非空有限集合，是属性值的集合，Vr 表示了属性任意时的属性值范围，是一个信息函数，它指定U中每一个对象 x 的属性值. 当R中的属性集可进一步分解为条件属性集合C和决策属性集合D，且满足时，信息系统(IS)称为决策系统(DS) 张文宇. 数据挖掘与粗糙集方法[M]. 西安电子科技大学出版社, 2007: 49. . ai为某一条件属性，则决策属性D对某一条件属性ai的依赖程度可以利用下式计算屈利, 苑津莎, 李丽. 基于事例推理的电力系统短期负荷预测[J]. 电力科学与工程, 2008,24(2):59-63. - 程其云, 孙才新, 周湶, 等. 粗糙集信息熵与自适应神经网络模糊系统相结合的电力短期负荷预测模型及方法[J]. 电网技术, 2004,28 (17): 72-75. ：（4）式中，RC、RD 分别表示条件属性集合C和策属性集合D在论域上的等价关系.表示RD 相对于RC 的条件熵.的值越大，则条件属性ai对决策属性D的重要性越大.如果，则说明ai对于D不起作用，可以删除.在基于属性信息增益的约简方法中，计算案例库属性集的每个属性的信息增益，并约定属性的信息增益大于某个阈值时就将该属性归入最优属性子集，否则弃用属性. 1.3 基于互信息的特征选择 Li Y F, Xie M, Goh T N. A study of mutual information based feature selection for case based reasoning in software cost estimation [J]. Expert Systems with Applications, 2009, 36(3, Part 2): 5921-5931. ：三种经典的基于互信息的特征选择算法，分别为信息增益、互信息和交叉熵，以及于互信息最大化的特征选择算法唐亮,段建国,许洪波,梁玲.基于互信息最大化的特征选择算法及应用[J]. 计算机工程与应用,2008,44(13):130-133 。结合互信息的计算公式可知,信息增益方法计算出的结果也是一种互信息。若将互信息看成两个随机变量之间的关系,则信息增益表示随机变量C={c1,c2,…,ck}与随机变量T*={t,t}之间的关系,而互信息最大化研究的是随机变量C={c1,c2,…,ck}与随机变量T={t1,t2,…,tm}之间的关系。每个特征的信息增益的计算是独立的,与其它特征的分布无关。而互信息最大化将所有的特征看成一个整体,计算随机变量T所能提供的关于随机变量C的互信息,并计算出每个特征对该互信息的贡献。苗夺谦苗夺谦,胡桂容.知识约简的一种启发式算法[J].计算机研究与发展, 1999,36(6): 681 - 684. 等人提出的基于互信息的知识约简算法,是建立在条件属性对决策属性的互信息基础上的;文贾平,代建华,潘云鹤,等.一种基于互信息增益率的新属性约简算法[J].浙江大学学报(工学版), 2006,40(6):1041 - 1044. 提出了一种基于互信息增益率的属性约简算法; 颜艳等颜艳,杨慧中.一种基于互信息的粗糙集知识约简算法[J]. 清华大学学报(自然科学版),2007,47(S2):1903-1906. 提出了一种改进的互信息的属性约简算法，基于改进的互信息的启发式算法，并比对互信息、互信息增益率和文中提出的改进的互信息为属性重要性度量方法的启发式知识约简算法。熵的公式：联合熵：条件熵：联合熵和条件熵的关系： 1.3.1 互信息（MI）互信息是衡量不考虑特征分布的两个特征之间的一般依赖性. 互信息越大，这两个随机变量之间的联系月越紧密.当互信息趋近于零时，这两者之间相互独立. 特征和类之间的互信息：P（wi）是特征w