信息熵-特征选择方案教案.docVIP

  • 10
  • 0
  • 约1.1万字
  • 约 13页
  • 2017-06-22 发布于湖北
  • 举报
基于互信息的特征选择 1. 模型 定义D1 病集S由有关心脏病病种(i=1,2,…,n)组成,令患者的疾病信息熵-为: (1) 显然疾病信息熵具有Shannon信息熵的性质,反映了临床中具体病人的客观信息及实际医疗干预过程中所表现的信息在总体特征上的平均不确定性. 定义D2:一个诊断病例库可以表示为关于病例特征的矩阵形式 (2) 其中,—病例库中第个病例的第个属性值; m—病例特征数量; n—病例库规模; 定义D3:一个信息系统(IS)可以表达为 (3) 其中,U 是对象的非空有限集合, R是属性的非空有限集合,是属性值的集合,Vr 表示了属性任意时的属性值范围, 是一个信息函数,它指定U中每一个对象 x 的属性值. 当R中的属性集可进一步分解为条件属性集合C和决策属性集合D,且满足时,信息系统(IS)称为决策系统(DS). ai为某一条件属性,则决策属性D对某一条件属性ai的依赖程度可以利用下式计算-: (4) 式中,RC、RD 分别表示条件属性集合C和策属性集合D在论域上的等价关系.表示RD 相对于RC 的条件熵.的值越大,则条件属性ai对决策属性D的重要性越大.如果,则说明ai对于D不起作用,可以删除.在基于属性信息增益的约简方法中,计算案例库属性集的每个属性的信息增益,并约定属性的信息增益大于某个阈值时就将该属性归入最优属性子集,否则弃用属性. 1

文档评论(0)

1亿VIP精品文档

相关文档