- 15
- 0
- 约2.26千字
- 约 7页
- 2018-03-16 发布于天津
- 举报
用C50模型归纳药物的对症患者
用C5.0模型归纳药物的对症患者
一、C5.0介绍
1. C5.0简介
C5.0是决策树算法的一种,决策树就是根据对样本的学习,依据样本的一些属性建立分类规则。按照分类规则对样本进行分类。C5.0模型根据能够带来最大信息增益(information gain)的变量拆分样本。第一次拆分确定的样本子集随后再次拆分,通常是根据另一个变量进行拆分,这一过程重复进行直到样本子集不能再被拆分为止。最后,重新检验最低层次的拆分,那些对模型值没有显著贡献的样本子集被剔除或者修剪。
2. 信息增益
C5.0算法选择分类变量的依据是能够带来最大信息增益的变量,也即以信息熵的下降速度作为确定最佳分支变量和分割阀值的依据。
信息增益:即信息熵的有效减少量。
信息熵:信息量的数学期望,是信源发出信息前的平均不确定性,也称先验熵。信息熵的下降意味着不确定性的下降。信息源、信息量、信息熵的数学表达式为:
①信息ui(i=1,2,…r)的发生概率P(ui)组成信源数学模型,( P(ui)=1;
②信息量(单位是bit,对的底数取2):
③信息熵 (先验不确定性):
信息熵(H(U))的性质有:
H(U)=0时,表示只存在唯一的可能性,不存在不确定性
如果信源的k个信号有相同的发出概率,即所有的ui有P(ui)=1/k, H(U)达到最大,不确定性最大
P(ui)差别越小, H(U)就越大; P(ui) 差别大,
您可能关注的文档
- 传染病学复习提纲.ppt
- 民法总则立法重大问题.pdf
- 传承历史求实创新追求卓越.doc
- 佳助结扎血管夹对兔胆囊切除术后的安全性评价.doc
- 传播科技的创新开发数位学习.ppt
- 水果保鲜技术应用.ppt
- 求解整数规划相应的线性规划问题.ppt
- 水果的故事.doc
- 使用说明书——DV.doc
- 俄罗斯专利.pdf
- 2026年山东省滨州市惠民县中考化学一模试卷(含答案).pdf
- 2026年山东省济南市历城区中考化学二模试卷(含答案).pdf
- 2026年山东省烟台市福山区中考化学模拟试卷(含答案).pdf
- 2026年山东省临沂市郯城县中考化学一模(含答案).pdf
- 2026年四川省德阳市中江县中考化学二诊试卷(含答案).pdf
- 2026年四川省绵阳市梓潼县中考化学二模试卷(含答案).pdf
- 2026年新疆乌鲁木齐市沙依巴克区中考化学适应性试卷(含答案).pdf
- 2026年重庆市永川区中考化学质检试卷(含答案).pdf
- 2026年重庆市第一中学校中考化学全真模拟试卷(二)(含答案).pdf
- 安徽池州市第二中学等校2025-2026学年高一下学期期中物理试卷A(含答案).pdf
原创力文档

文档评论(0)