Clementine 第四讲上课讲义.pptVIP

下载本文档

4
0
约3.11千字
约 44页
2020-06-01 发布于浙江
举报
版权申诉

Clementine 第四讲上课讲义.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

问题：类别值多的输入变量比类别值少的输入变量有更多的机会成为当前最佳分组变量信息增益率：如何评价数值型输入变量消除平均不确定性的能力首先分箱： Clementine的C5.0节点包含了MDLP分箱算法然后再根据上述方法判定 C5.0：生长算法如何从分组变量的众多取值中找到最佳分割点默认策略：对分类型分组变量：有k个类别，将样本分成k组，形成树的k个分支对数值型分组变量：以MDLP分箱所得的最小组限值为界，将小于组限的样本划为一组，大于的划为另一组，形成两个分叉其他策略： ChiMerge分箱法，合并分组变量的多个类别后再分支 C5.0：生长算法 ChiMerge分箱：有指导的分箱方法，基本思路：将输入变量按变量值升序排序定义初始区间，将输入变量值分成若干组 C5.0：生长算法 ChiMerge分箱基本思路：计算输入变量相邻两组与输出变量的列联表在列联表的基础上计算卡方观测值观测值小于临界值，输入变量在该相邻区间上的划分对输出变量取值没有显著影响，应合并。首先合并卡方观测值最小的区间。重复以上，直到任何两个相临组无法合并，即卡方观测值都不小于临界为止。 C5.0：剪枝算法采用后修剪方法，从叶节点向上逐层剪枝，关键：误差的估计、剪枝标准的设置误差估计：利用统计学置信区间的估计方法，直接在训练样本集上估计误差 Clementine中1-?默认75%。置信度用于控制剪枝的程度，决定了所允许的误差上限 C5.0：剪枝算法剪枝标准：“减少－误差（reduce -error）”法 k为待剪子树中叶节点的个数，pi为第i个叶节点所含样本占子树所含样本的比例，ei为第i个叶节点的估计误差，e为父节点的估计误差 C5.0：剪枝算法例：能否剪掉C节点下的3个叶节点（E、F、G）估计3个节点的误差：0.55、0.91、0.55 加权求和：计算C节点的误差估计：0.50 可剪掉叶节点E、F、G 第一个数字是本节点所含样本量N，第二个数为错判样本数E C5.0的应用举例以Students.xls为例，目标：研究哪些因素是显著影响学生是否参与社会公益活动的因素变量重要性的测度(Calculate variable importance) Propensity Scores(valid only for flag targets)：计算变量的倾向性得分 Calculate raw propensity scores：基于训练样本集计算分类模型给出预测值为真的概率置信度：经拉普拉斯调整后的结果 N(t)是节点t包含的样本量 Nj(t) 是节点t包含第j类的样本量 k是输出变量的类别个数 C5.0的推理规则集决策树对逻辑关系的表述并非是最简洁的 IF a AND b THEN yes ELSE IF c AND d THEN yes OTHERWISE no 主要内容决策树算法概述从学习角度看，决策树属有指导学习算法目标：用于分类和回归 C5.0算法及应用分类回归树及应用模型的对比分析决策树算法概述：基本概念得名其分析结论的展示方式类似一棵倒置的树根节点叶节点中间节点 2叉树和多叉树决策树算法概述：特点体现了对样本数据的不断分组过程决策树分为分类树和回归树体现了输入变量和输出变量取值的逻辑关系逻辑比较形式表述的是一种推理规则每个叶节点都对应一条推理规则对新数据对象的分类预测决策树算法概述：几何理解决策树建立的过程就是决策树各个分枝依次形成的过程决策树的每个分枝在一定规则下完成对n维特征空间的区域划分决策树建立好后，n维特征空间会被划分成若干个小的边界平行或垂直于坐标轴的矩形区域确定每一步特征空间划分标准时，都同时兼顾由此将形成的两个区域，希望划分形成的两个区域所包含的样本点尽可能同时“纯正” 决策树算法概述：核心问题第一，决策树的生长利用训练样本集完成决策树的建立过程第二，决策树的剪枝利用测试样本集对所形成的决策树进行精简决策树算法概述：树生长决策树的生长是对训练样本集的不断分组分枝准则的确定涉及：第一，如何从众多的输入变量中选择一个当前最佳的分组变量第二，如何从分组变量的众多取值中找到一个最佳的分割点决策树算法概述：树剪枝树剪枝的原因：完整的决策树对训练样本特征的捕捉“过于精确”--- 过拟和（Overfitting）常用的修剪技术：预修剪（pre-pruning）：用来限制决策树的充分生长。策略：事先指定决策树生长的最大深度事先指定树节点样本量的最小值后修剪（post-pruning）：待决策树充分生长完毕后再进行剪枝决策树算法概述：树剪枝后修剪