分类挖掘:决策树.ppt

  1. 1、本文档共10页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
LOGO 使用分裂信息(split information)将信息增益规范化。 该值表示数据集 按属性 测试的 个划分产生的信息。 增益率: 选择具有最大信息率的属性作为分裂属性。 增益率 income 其他属性的信息率可类似求出。 在实际通信之前(决策树建立之前),输出变量对信宿来讲是完全随机的,其平均不确定性为: 决策树建立过程中,随着信宿接收到信息(输入变量如T1),则条件熵为: 信息增益: T1作为最佳分组变量而非T3 将输出变量(是否购买)看作信源发出的信息U 输入变量看作是信宿接收到的一系列信息V 类别值多的输入变量比少的有更多的机会成为当前最佳分组变量 C5.0算法:信息增益率 信息增益率的数学定义为: 数值型输入变量 首先对它进行分组处理,分组方法采用基于MDLP的熵分组方法 2、C5.0算法:数值型输入变量 把连续值属性的值域 分割为离散的区间集合。 基于MDLP的熵分组方法。 (Minimun Description Length Principle) 信息增益大于编码长度 * 选择最佳分组变量时,通常将带有缺失值的样本当临时剔除样本看待,并进行权数调整 3、C5.0算法:对缺失值问题的处理 计算输出变量熵 计算关于T1的条件熵 计算经权数调整的T1信息增益 计算信息增益率 不继续确定关于分组变量的最佳分割点 分类型输入变量:K叉树 数值型输入变量:2叉树 Clementine:ChiMerge分箱法 在分组变量上取缺失值: 第1个样本被分配到各组中的权数分别为5/13、3/13、5/13,之后各组的样本数分别为5+5/13、3+3/13、5+5/13 4、C5.0算法:最佳分割点 后修剪方法从叶结点向上逐层剪枝,关键是错误率即误差的估计问题 通常应在检验样本集上估计误差并进行剪枝 利用统计中置信度的思想直接在训练样本集中估计误差: 当?为0.25时, 5、C5.0算法:剪枝 按照“减少-误差(reduce-error)”法判断是否剪枝 C5.0算法:剪枝 考虑是否可以剪掉最下层的3个叶结点 3个结点的错误率:分别为:0.55、0.91、0.55;加权: 计算父结点C的误差估计为0.50。由于0.60大于0.50,因此可以剪掉3个叶结点。 预测的置信度(或误差)会影响决策,错判的损失也会影响决策 损失矩阵: 6、C5.0算法:损失矩阵 预测值 Yes No 实际值 Yes 0 m No n 0 从损失角度决策,在各类错判损失不相等时(不能仅从置信角度判断。事实上,默认在损失相同时才考虑置信度): c(i|j)是将j类错判为i类的损失,p(j|t)是被节点t判为j类的归一化概率 C5.0算法:损失矩阵 C5.0仅在剪枝时考虑损失,以二分类为例: C5.0算法:损失矩阵 示例:取伪损失较大,给出yes判断的置信度都很高。模型复杂,决策树修剪程度低;如果取伪损失指定为10,则模型都判为No 偏差和方差 决策树算法具有一定的不稳健性,可以考虑利用多组样本建立多个模型,形成模型“委员会”制度 Bagging技术 Boosting技术 C5.0算法: 模型“委员会” 建模过程(输入:训练样本集T,训练次数k;输出:多个决策树模型C1,C2,…Ck) For i=1,2,…,k do 从T中随机有放回抽取样本,形成有相同样本容量的样本集合Ti 以Ti为训练集构造模型Ci End for 决策过程(输入:新数据X,多个决策树模型C1,C2,…Ck;输出:分类预测结果C(X) ) For i=1,2,…,k do 根据Ci对X做预测,结果为Ci(X) End for 统计各类别得票,得票数最高的为C(X),或计算平均值 C5.0算法: Bagging技术 两个阶段:建立k个模型; k个模型投票 C5.0算法:Boosting技术 Boosting技术:建模过程 初试化样本权数:wj(i)=1/n 对每次迭代: 根据样本权数wj(i),从T中有放回地抽取n个样本形成训练样本集Ti; 根据训练集Ti得到模型Ci; 计算模型的误差e(i) 如果e(i)0.5 或者e(i)=0,则终止建模过程; C5.0算法:Boosting技术 Boosting技术:建模过程 初试化样本权数:wj(i)=1/n 对每次迭代: 根据误差更新每个样本的权数: 正确分类的样本权数:wj(i+1)= wj(i)*?(i),?(i)=e(i)/(1- e(i)); 错误分类的样本权数保持不变:wj(i+1)= wj(i); 调整wj(i+1)使得各样本的权重之和等于1 经过k次迭代,将得到k个模型和k个误差 C5

文档评论(0)

rabbitco + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

版权声明书
用户编号:8126037011000004

1亿VIP精品文档

相关文档