第4章1_分类与决策树.ppt

下载文档 降价啦

2
0
约1.15万字
约 72页
2017-07-05 发布于湖北
举报
版权申诉
保障服务

第4章1_分类与决策树.ppt

1、本文档共72页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

停止准则以下任何一个规则被满足，节点将不再分裂这个节点是“纯”的，即这个节点的所有样本都属于同一类别；对于每一个属性（不包括类标号属性），节点中的所有样本都有相同的值；当前节点所在的深度已经达到“最大树深度”（如果定义有）；这个节点的样本数量小于“父分支中的最小记录数” （如果定义有）；这个节点分裂后产生的子节点中包含的样本数量小于预定义的“子分支中的最小记录数”（如果定义有）；分裂产生的杂度削减小于预定义的“最小杂度削减”（如果定义有）树的修剪叶子节点过多，则树的复杂度搞。叶子节点过少，则误分类损失大。代价复杂度树的修剪过程令α =0，从T1=T(0)开始，这里的T(0)就是最大树Tmax；逐渐增大α ，直到某个节点使得成立，将它的分支删除，得到T2；重复上一步骤，直到被修剪到只有一个根节点，从而得到一个树的序列T1,T2,…,Tk。子树评估要找到一棵分类准确性最好、同时节点数量尽量少的树计算每一棵子树的误分类损失： 3.3.4 在Clementine中应用CART 这里，以电信客户数据（文件名为Telephone.sav）为例，讨论分类回归树的具体操作以及如何通过交互操作控制决策树的生长和剪枝过程。分析目标是，找到影响客户流失的重要因素，以实现客户流失的事前控制。数据流建模分类结果分析结论1 在流管理器的Models卡中，鼠标右击所得到的CART模型，选择弹出菜单中的Brower项浏览默写结果并选择Generate菜单下的Filter Node项。于是，会在数据流编辑区自动生成一个Filter节点，将它连到数据流的恰当位置，可看到下图结果：从图中可知，只有性别对客户流失的影响不大，其他因素都有影响。应该注意到，这棵决策树是代价复杂度最小的，但针对本例的分析目标，可适当减少复杂性、降低精度，以找到更主要的影响因素。针对上述问题，重新设置CTR节点。分析结论2 tenured [‘tenju?d, ’tenj?d] adj. （美）享有终身职位的v. 授予…终身职位（tenure的过去分词） * regression [ri‘ɡre??n] n. 逆行；退化；回归；复原 * 1、partition [pɑ:‘ti??n] n. 分割；划分，分开；隔离物；隔墙 vt. 分割；区分；分隔 2、trials n. 尝试，努力；审判；考验；顿顽（trial的复数） 3、symbolic [simb?lik]adj. 使用符号的；象征的；[语]符号的 * 1、validate [v?lideit] vt. 证实，验证；确认；使生效 * 1、accuracy [?kjur?si] n. [数] 精确度，准确性 2、generality [,d?en?r?liti] n. 概论；普遍性；大部分 * 1、pruning [‘pru:ni?]n. 修剪；剪枝adj. 修剪用的v. 修剪（prune的ing形式） 2、winnow [‘win?u] vt. 簸；把…挑出来；精选vi. 分出好坏；扬谷n. 扬谷；扬谷器vt.簸；把…挑出来；精选 3、severity [siveriti] n. 严重；严格；猛烈 * 1、cost [k?st] vt. 花费；使付出；使花许多钱n. 费用，代价，成本；损失vi. 花费 * 同理，若以“收入水平”为分裂属性：若以“有固定收入”为分裂属性：若以“VIP”为分裂属性：以“年龄”作为分裂属性，所得信息增益最大。叶子节点 ID3的主要缺点 ID3算法只能处理分类属性（离散属性），而不能处理连续属性（数值属性）。在处理连续属性时，一般要先将连续属性划分为多个区间，转化为分类属性。例如“年龄”，要把数值事先转换为诸如“小于30岁”、“30至50岁”、“大于50岁”这样的区间，再根据年龄值落入了某一个区间取相应的类别值。通常，区间端点的选取包含着一定的主观因素。 ID3生成的决策树是一棵多叉树，分支的数量取决于分裂属性有多少个不同的取值。这不利于处理分裂属性取值数目较多的情况。因此目前流行的决策树算法大多采用二叉树模型。 ID3是采用“信息增益”来选择分裂属性的。虽然这是一种有效的方法，但其具有明显的倾向性，即它倾向于选择具有大量不同取值的属性，从而产生许多小而纯的子集。尤其是关系数据库中作为主键的属性，每一个样本都有一个不同的取值。如果以这样的属性作为分裂属性，那么将产生非常多的分支，而且每一个分支产生的子集的熵均为0（因为子集中只有一个样本！）。显然，这样的决策树是没有实际意义的。因此，Qui