基于clementine的数据挖掘算法决策树研讨.pptx

基于clementine的数据挖掘算法决策树研讨

基于clementine的数据挖掘算法 ;;数据挖掘方法论;数据准备—重要性分析;方差分析(Analysis of Variance)是利用样本数据检验两个或两个以上的总体均值间是否有差异的一种方法。在研究一个变量时,它能够解决多个总体的均值是否相等的检验问题;在研究多个变量对不同总体的影响时,它也是分析各个自变量对因变量影响程度的方法。 ;例如:调查学生学历对用户做某题的影响;1、提出基本的无效假设: 行分类变量与列分类变量无关联 2、Pearson卡方统计量 其中r为列联表的行数,c为列联表的列数, 为观察频数,fe为期望频数。 其中, RT指定单元格所在行的观测频数合计,CT指定单元格所在列的观测频数合计,n为观测频数总计。 3、确定临界值 显著性水平A,一般为0.05或0.01 卡方观测值大于卡方临界值,拒绝零假设,变量间不独立 卡方观测值小于卡方临界值,接受零假设,变量间独立 ; 卡方检验应用场景;;决策树模型;信息量的数学定义: 信息熵是信息量的数学期望,是信源发出信息前的平均不确定性,也称先验熵。信息熵的数学定义: 信息熵等于0,表示只存在唯一的信息发送可能,P(ui)=1,没有发送的不确定性; 如果信源的k个信号有相同的发送概率,P(ui)=1/k,则信息发送的不确定性最大,信息熵达到最大 P(ui)差别小,信息熵大,平均不确定性大;反之,差别大,信息熵小,平均不确定性小。;信息熵在C5.0算法中的应用;C5.0算法应用场景;如果样本按“年龄”划分,对一个给定的样本分类所需的期望信息为: 因此,这种划分的信息增益是 Gain(年龄)=I(s1,s2) - E(年龄)=0.246 (2)以相同方法计算其他属性的增益得到 Gain(出账收入)=I(s1,s2) - E(收入)=0.940-0.911=0.029 Gain(智能机)=I(s1,s2) - E(学生)=0.940-0.789=0.151 Gain(信用等级)=I(s1,s2) - E(信用等级)=0.940-0.892=0.048 3、得到较优的分类变量 由于 “年龄” 属性具有最高信息增益,它被选作测试属性。创建一个节点,用“年龄”标记,并对每个属性值引出一个分支 ;出账收入;对表1进行进行细分 。 S=5,设类C1对应于“是”,类C2对应于“否”。则s1=2,s2=3,p1=2/5,p2=3/5。 1、计算对给定样本分类所需的期望信息: 2、计算每个属性的熵。 (1)先计算属性“出账收入”的熵。 对于收入=“高”:s11=0,s21=2,p11=0,p21=1, 对于收入=“中等”: s12=1,s22=1,p12=1/2,p22=1/2, 对于收入=“低”: s13=1,s23=0,p13=1,p23=0, 如果按照出账收入”划分的信息增益是: Gain(收入)=I(s1,s2) - E(收入)=0.971-0.4=0.571 (2)以相同方法计算其他属性的增益得到 Gain(智能机)=I(s1,s2) – E(智能机)=0.971-0=0.971 Gain(信用等级)=I(s1,s2) - E(信用等级)=0.971-0.951=0.02 3、得到分类变量:由于 “智能机 ” 属性具有最高信息增益,它被选作测试属性 )收入=“低”: s13=1,s23=0,p13=1,p23=0, ;同理,对表2进行计算。得出属性“信用等级”具有最高信息增益,它被选作测试属性。创建一个节点,用“信用等级”标记,并对每个属性值引出一个分支。最终构造的决策树如下图所示 )收入=“低”: s13=1,s23=0,p13=1,p23=0, ;;C5.0的剪枝算法;取置信度为75%,则 ,查标准正态分布表得 ,分别估计3个节点的误差: 加权求和: C节点的误差估计: 由于0.50.6,可剪掉叶节点E、F、G

文档评论(0)

1亿VIP精品文档

相关文档