基于clementine的数据挖掘算法决策树研讨
基于clementine的数据挖掘算法
;;数据挖掘方法论;数据准备—重要性分析;方差分析(Analysis of Variance)是利用样本数据检验两个或两个以上的总体均值间是否有差异的一种方法。在研究一个变量时,它能够解决多个总体的均值是否相等的检验问题;在研究多个变量对不同总体的影响时,它也是分析各个自变量对因变量影响程度的方法。 ;例如:调查学生学历对用户做某题的影响;1、提出基本的无效假设:
行分类变量与列分类变量无关联
2、Pearson卡方统计量
其中r为列联表的行数,c为列联表的列数, 为观察频数,fe为期望频数。
其中,
RT指定单元格所在行的观测频数合计,CT指定单元格所在列的观测频数合计,n为观测频数总计。
3、确定临界值
显著性水平A,一般为0.05或0.01
卡方观测值大于卡方临界值,拒绝零假设,变量间不独立
卡方观测值小于卡方临界值,接受零假设,变量间独立
; 卡方检验应用场景;;决策树模型;信息量的数学定义:
信息熵是信息量的数学期望,是信源发出信息前的平均不确定性,也称先验熵。信息熵的数学定义:
信息熵等于0,表示只存在唯一的信息发送可能,P(ui)=1,没有发送的不确定性;
如果信源的k个信号有相同的发送概率,P(ui)=1/k,则信息发送的不确定性最大,信息熵达到最大
P(ui)差别小,信息熵大,平均不确定性大;反之,差别大,信息熵小,平均不确定性小。;信息熵在C5.0算法中的应用;C5.0算法应用场景;如果样本按“年龄”划分,对一个给定的样本分类所需的期望信息为:
因此,这种划分的信息增益是
Gain(年龄)=I(s1,s2) - E(年龄)=0.246
(2)以相同方法计算其他属性的增益得到
Gain(出账收入)=I(s1,s2) - E(收入)=0.940-0.911=0.029
Gain(智能机)=I(s1,s2) - E(学生)=0.940-0.789=0.151
Gain(信用等级)=I(s1,s2) - E(信用等级)=0.940-0.892=0.048
3、得到较优的分类变量
由于 “年龄” 属性具有最高信息增益,它被选作测试属性。创建一个节点,用“年龄”标记,并对每个属性值引出一个分支
;出账收入;对表1进行进行细分 。
S=5,设类C1对应于“是”,类C2对应于“否”。则s1=2,s2=3,p1=2/5,p2=3/5。
1、计算对给定样本分类所需的期望信息:
2、计算每个属性的熵。
(1)先计算属性“出账收入”的熵。
对于收入=“高”:s11=0,s21=2,p11=0,p21=1,
对于收入=“中等”: s12=1,s22=1,p12=1/2,p22=1/2,
对于收入=“低”: s13=1,s23=0,p13=1,p23=0,
如果按照出账收入”划分的信息增益是:
Gain(收入)=I(s1,s2) - E(收入)=0.971-0.4=0.571
(2)以相同方法计算其他属性的增益得到
Gain(智能机)=I(s1,s2) – E(智能机)=0.971-0=0.971
Gain(信用等级)=I(s1,s2) - E(信用等级)=0.971-0.951=0.02
3、得到分类变量:由于 “智能机 ” 属性具有最高信息增益,它被选作测试属性
)收入=“低”: s13=1,s23=0,p13=1,p23=0,
;同理,对表2进行计算。得出属性“信用等级”具有最高信息增益,它被选作测试属性。创建一个节点,用“信用等级”标记,并对每个属性值引出一个分支。最终构造的决策树如下图所示
)收入=“低”: s13=1,s23=0,p13=1,p23=0,
;;C5.0的剪枝算法;取置信度为75%,则 ,查标准正态分布表得
,分别估计3个节点的误差:
加权求和:
C节点的误差估计:
由于0.50.6,可剪掉叶节点E、F、G
您可能关注的文档
- 图像处理MATLAB1研讨.ppt
- 图像处理应用实例研讨.ppt
- 图像处理基础(第二版)研讨.ppt
- 图像处理研讨.ppt
- 图像处理基础知识研讨.ppt
- 图像处理色彩研讨.ppt
- 图像处理初步研讨.ppt
- 图像处理基础研讨.ppt
- 图像处理技术研讨.ppt
- 图形学和可视化研讨.ppt
- (2026春新版)部编版八年级语文下册《第一单元》PPT课件.pptx
- 2018电力监控系统网络安全监测装置技术规范.docx
- 2022电力监控系统安全防护方案审核要点.docx
- 2014电力电缆光伏系统EN 50618欧标.docx
- (2026春新版)人教版二年级数学下册《第三单元 万以内数的认识》教案.docx
- (2026春新版)人教版二年级数学下册《第四单元 万以内的加法和减法》教案.docx
- (2026春新版)人教版二年级数学下册《综合与实践 时间在哪里》教案.docx
- (2026春新版)苏教版二年级数学下册《综合与实践 时间有多长》教案 .pdf
- (2026春新版)部编版三年级语文下册第3单元(教案).docx
- (2026春新版)部编版三年级语文下册第8单元(教案).docx
最近下载
- 2026春节节后复工安全培训课件.pptx VIP
- 2025年内蒙古计算机基础(专升本)考试真题及参考答案.docx VIP
- 20210528-国信证券-磷化工行业分析框架.pdf VIP
- 三年级数学下册口算题(每日一练,共36套).pdf VIP
- 热力引擎-游戏行业:2024年微信小游戏买量获客报告 -.pdf VIP
- GB 50217-2018 电力工程电缆设计标准.docx VIP
- 精品解析:辽宁省沈阳市于洪区2025-2026学年八年级上学期1月期末数学试题(原卷版).docx VIP
- 2024小游戏混合变现白皮书.pdf VIP
- 2026年精选采购年工作计划3篇(采购部工作计划).docx VIP
- 2026年医药冷链物流行业报告.docx
原创力文档

文档评论(0)