数据挖掘与应用(十一).pptVIP

下载本文档

3
0
约4.63千字
约 33页
2017-06-01 发布于湖北
举报
版权申诉

数据挖掘与应用(十一).ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

数据挖掘与应用(十一)要点

* 回归树评估回归树对数据D的预测性能：可使用均方误差：均方误差越小，决策树性能越好。 * 回归树按照因变量预测值从大到小的顺序排列?的所有观测，前n%的观测中，因变量真实值的平均值越大，决策树性能越好。按照决策利润从大到小、或决策损失从小到大的顺序排列?的所有观测，前n%的观测中，实际平均利润越大或实际平均损失越小，决策树性能越好。修剪回归树时，可依据各子树对修正数据集的预测性能来选择最优的子树。 * * * * * * * * * * * 第十一讲决策树（1） * 决策树简介决策树是一种根据自变量的值进行递归划分以预测因变量的方法。若因变量为连续变量，则称相应的决策树为回归树。若因变量为分类变量，则称相应的决策树为分类树; * 决策树简介假设数据集risk中含有下表所示信息: * 决策树简介根据数据集中其它变量来预测风险类别的决策树模型如下图所示。 * 决策树简介根节点包含所有观测。根据收入是否小于25488.5，将观测分别归于节点1和节点2。对于属于节点1的观测，再根据拥有汽车的数量是否小于等于3将观测分别归于节点3和节点4。节点3和节点5不再进行进一步划分，则称其为叶节点。对于属于节点2的观测，再根据孩子数量是否小于等于1将观测分别归于节点5和节点6。对于树中各节点，都可计算其中各风险类别的比例。 * 决策树简介对每个叶节点中的所有观测，决策树模型对其进行同样的分类。从根节点到每个叶节点的路径都会给出风险类别的一个预测规则。举例来说，如果叶节点中的所有观测都被归类为该节点中比例最大的风险类别，图中节点3对应的预测规则为“如果收入小于25488.5并且拥有汽车数量小于等于3，那么风险类别为bad profit”。 * 决策树的生长与修剪构建决策树时: 先根据训练数据集生成一棵足够大的决策树（“足够大”是指树足够深且叶节点足够多）；再使用修正数据集对树进行修剪，选取对修正数据集预测性能最好的子树。 * 决策树的生长与修剪上述过程中有几个主要任务需要完成: 2.在决策树生长过程中，如何决定某个节点是叶节点还是需要进一步划分； 1.在决策树生长过程中，如果需要对某个节点进行进一步划分，为其选择划分规则； 3.决定每个叶节点的预测值; 4.修剪决策树。 * 决策树的生长与修剪先考察因变量为可取值1,2, … ,K的分类变量的情形，此时建立的决策树是分类树。首先来看如何为需要进一步划分的节点选择合适的划分(任务1)。需要根据某个自变量的值，将节点t的观测划分入H个子节t1, … ,tH，pth表示划分入子节点th的观测比例(h=1, … ,H)。 * 候选划分集的生成首先寻找所有可能的划分规则构成候选划分集S，再从中选择最优的划分。对每个自变量xr，可能的划分规则如下: 若xr是定序或连续自变量，可将训练数据集中该变量的取值按照从小到大的顺序排列，假设不重叠的取值为xr(1)xr(2) …xr(Mr)，定义xr(Mr+1)=∞。对于任何1=i0i1 … iH-1iH=Mr+1，都可构造一个候选划分：对h=1, … ,H，将满足的观测划分入第h个子节点。 * 候选划分集的生成若xr是名义变量，设其不同的取值为Vr={xr(1), … ,xr(Mr)}。可以构造Vr的分割:ψ1, … , ψH，使得每个ψh都是Vr的真子集且互相之间交集为空集，再将xr取值属于ψh的观测划分入第h个子节点。注意， ψ1, … , ψH的不同排列得到的划分是一样的，因此需要避免冗余。 * 候选划分集的约简减少候选划分集的大小可以降低决策树建模的复杂度。有多种方法可以减少候选划分集的大小，例如:使用降维方法减少变量个数；通过数据分箱等方法减少定序或连续变量的不重复取值的个数；将名义变量归于更少的类别。 * 选择最优划分的准则一——不纯净性度量要从S中选择最优划分，可使用节点的不纯净性度量Q(·)。划分前t节点的不纯净性为Q(t)；划分后的平均不纯净性为：。 S中的最优划分应使不纯净性下降最多，即的值最大。 * 不纯净性度量（一）——基尼系数令p(l│t)表示节点t中类别l的比例。基尼系数: 若p(l│t)=……=p(K│t)=1/K(即节点t是最不“纯净”的)，基尼系数达到最大值。若某个p(l│t)等于1而其它类别的比例等于0(即节点t是最“纯净”的)，基尼系数达到最小值。基尼系数可解释为误分类的概率：如果在节点t中随机抽取一个观测，那么该观测以p(l1│t)的概率属于类别l1(1≤l1≤K)；若再将该观测按节点t内各类别的概率分布随机归类，它被归于类别l2的比例为p(l2│t)(1≤l2≤K)；误分类的情形对应于l