用C50模型归纳药物的对症患者.docVIP

  • 15
  • 0
  • 约2.26千字
  • 约 7页
  • 2018-03-16 发布于天津
  • 举报
用C50模型归纳药物的对症患者

用C5.0模型归纳药物的对症患者 一、C5.0介绍 1. C5.0简介 C5.0是决策树算法的一种,决策树就是根据对样本的学习,依据样本的一些属性建立分类规则。按照分类规则对样本进行分类。C5.0模型根据能够带来最大信息增益(information gain)的变量拆分样本。第一次拆分确定的样本子集随后再次拆分,通常是根据另一个变量进行拆分,这一过程重复进行直到样本子集不能再被拆分为止。最后,重新检验最低层次的拆分,那些对模型值没有显著贡献的样本子集被剔除或者修剪。 2. 信息增益 C5.0算法选择分类变量的依据是能够带来最大信息增益的变量,也即以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。 信息增益:即信息熵的有效减少量。 信息熵:信息量的数学期望,是信源发出信息前的平均不确定性,也称先验熵。信息熵的下降意味着不确定性的下降。信息源、信息量、信息熵的数学表达式为: ①信息ui(i=1,2,…r)的发生概率P(ui)组成信源数学模型,( P(ui)=1; ②信息量(单位是bit,对的底数取2): ③信息熵 (先验不确定性): 信息熵(H(U))的性质有: H(U)=0时,表示只存在唯一的可能性,不存在不确定性 如果信源的k个信号有相同的发出概率,即所有的ui有P(ui)=1/k, H(U)达到最大,不确定性最大 P(ui)差别越小, H(U)就越大; P(ui) 差别大,

文档评论(0)

1亿VIP精品文档

相关文档