第9章预测建模:分类和回归试卷.pptVIP

  • 9
  • 0
  • 约6.01千字
  • 约 52页
  • 2017-03-02 发布于湖北
  • 举报
五邑大学信息学院  何国辉 1. 信息增益(续) 计算信息增益的思路: 首先计算不考虑任何输入变量的情况下,要确定T中任一样本所属类别需要的信息Info(T); 计算引入每个输入变量X后,要确定T中任一样本所属类别需要的信息Info(X,T); 计算两者的差Info(T)-Info(X,T),此即为变量X的信息增益,记为Gain(X,T)。 1. 信息增益(续) 计算熵Info(T) 如果不考虑任何输入变量,而将训练集T中的所有样本仅按照响应变量Y的值分到m个不相交的类别C1、C2、...、Cm的话,要确定任一样本所属的类别需要的信息为: m Info (T)=-Σi=1 (|Ci| /|T|).log2(|Ci| /|T|)) 以2为底的原因是:信息按二进制位编码 1. 信息增益(续) 计算熵Info(X,T) 如果考虑某个输入变量X,将训练集T按照X的值划分为n个子集T1、T2、...、Tn的话,要确定T中任一样本所属的类别需要的信息为: 其中: 注:Sj为Tj中属于类别Cj的样本子集。 n Info (X,T)=-Σi=1 (|Ti| /|T|).Info(Ti) m Info (Ti)=-Σj=1 (|Sj| /|Ti|).log2(|Sj| /|Ti|) 1. 信息增益(续) 计算增益Gain(X,

您可能关注的文档

文档评论(0)

1亿VIP精品文档

相关文档