第五讲modeler分类预测：决策树算法(二).pptVIP

下载本文档

33
0
约4.6千字
约 32页
2017-09-30 发布于广东
举报
版权申诉

第五讲modeler分类预测：决策树算法(二).ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第五讲modeler分类预测：决策树算法(二)

决策树算法的说明第一，决策树算法在处理不同类型数据时的优势和劣势数值型的优势和劣势不受数量级的影响忽略分布特征分类型的优势和劣势建树效率高类别较多时，树太茂盛容易处理“混合类型”的输入变量决策树算法的说明第二，决策树算法是面向单变量的容易处理大量的变量当需要同时兼顾考虑多个变量的联合分布时，无能为力 “贪婪”局部搜索方法：大多数树模型学习算法的首选大规模的搜索空间（如所有可能的2叉树）没有任何容易驾驭的方法可以找到唯一的最优树第三，树结构的表示能力比较粗超用于分类的决策区域局限为超矩形，且矩形的边局限于何输入变量坐标轴平行分类预测：决策树算法(二) 分类回归树分类回归树（Classification And Regression Tree，CART）是由美国斯坦福大学和加州大学伯克利分校的Breiman等人于1984年提的分类树和回归树 CART输入变量和输出变量可以是分类型也可以是数值型，C5.0中的输出变量只能是定类型 CART只能建立2叉树，而C5.0可以建立多叉树 CART以Gini系数和方差为基础选择最佳分组变量和分割点，而C5.0则是以信息增益率 CART依据检验样本集进行剪枝，而C5.0只依据训练样本集通过近似正态分布进行剪枝树生长：分类树的生长数值型输入变量：找到使输出变量“异质性”下降最大的分割点异质性测度： Clementine中测度异质性下降：归一化概率分类型输入变量：将多类别合并成“超类” Gini系数策略 Twoing策略：找到使合并形成的左右子结点（两个超类）中分布差异足够大的合并点s，即： Ordered策略：适用于定序型（Order Set型）输入变量，限定只有两个连续的别类才可合并成超类树生长：分类树的生长找到使输出变量“异质性”下降最大的分割点或“超类” 异质性测度：测度异质性下降：树生长：回归树的生长分类回归树的剪枝预剪枝决策树最大深度树中父结点和子结点所包含的最少样本量或比例树结点中输出变量的最小异质性减少量后剪枝：最小代价复杂性剪枝法(Minimal Cost Complexity Pruning，MCCP) 精度（或误差）和复杂度之间的权衡叶结点的个数反映复杂程度，误差看作代价决策树T的代价复杂度定义为：在检验样本集上的分类误差叶结点个数复杂度系数，每增加一个叶结点所带来的复杂度分类回归树的剪枝保留子树剪掉子树越小，越有把握剪掉子树。可决策应首先剪掉那棵子树分类回归树的剪枝 {t} Tt 令?＝0,逐渐增大?，直到?’ CART的后剪枝过程：（两个阶段）第一，产生子树序列，分别表示为T1，T2，T3，…，Tk CART产生子树序列的过程：首先，对于最大树T1，令?=0；然后，按照上述方法计算代价复杂度，并逐步增加?直到有一个子树可以被剪掉，得到子树T2；重复上述步骤，直到决策树只剩下一个根结点；最后得到子树序列T1，T2，T3，…，Tk以及它们的代价复杂度分类回归树的剪枝 CART的后剪枝过程：第二，根据一定标准,在k个子树中确定一个代价复杂度最低的子树放大因子 Tk预测误差的标准误分类回归树：示例找到影响客户流失的重要因素采用自动建模方式调整放大因子得到更重要的因素结论：老客户忠诚度较高、关注新客户年龄、收入变量等是影响客户流失的重要方面，但并没有进入决策树，而是作为代理变量存在分类回归树：损失矩阵和先验概率损失矩阵对分类树的影响以损失最小的类别作为预测类。计算各类别的平均错判损失，并考虑先验概率通过先验概率调整损失计算，或将错判损失转化为先验概率，对损失较大的类别给与较高的先验值，以规避高损失示例：调整先验概率为0.6和0.4，对No的预测置信水平提高了对于没有选择附加服务的客户保持和流失成因分析自行制定分组变量关心无线费用的影响，可指定无线费用为分组变量查看模型在训练样本集合和检验样本集合上的情况分类回归树：交互建模模型收益（Gains）评价：模型能否概括某类样本所蕴涵的特征和规律，在检验样本集上有理想的分类预测能力。模型总体收益越高就越有意义，利润（Profit）越高逐个结点的收益评价：选择类别：如选yes,则评价某节点（规则）对客户流失特征的概括能力收益、收益(%)、响应(%) 索引(%)：提升度分类回归树：模型评价收益和风险逐个结点的利润评价：兼顾考虑所以类别，对节点总体利润的评价分类回归树：模型评价收益和风险平均利润： ROI=总利润/总投资模型整体的收益评价选择类别：如选yes,则评价整个模型（规