- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
数据挖掘与应用(十一)要点
* 回归树 评估回归树对数据D的预测性能: 可使用均方误差: 均方误差越小,决策树性能越好。 * 回归树 按照因变量预测值从大到小的顺序排列?的所有观测,前n%的观测中,因变量真实值的平均值越大,决策树性能越好。 按照决策利润从大到小、或决策损失从小到大的顺序排列?的所有观测,前n%的观测中,实际平均利润越大或实际平均损失越小,决策树性能越好。 修剪回归树时,可依据各子树对修正数据集的预测性能来选择最优的子树。 * * * * * * * * * * * 第十一讲 决策树(1) * 决策树简介 决策树是一种根据自变量的值进行递归划分以预测因变量的方法。 若因变量为连续变量,则称相应的决策树为回归树。 若因变量为分类变量,则称相应的决策树为分类树; * 决策树简介 假设数据集risk中含有下表所示信息: * 决策树简介 根据数据集中其它变量来预测风险类别的决策树模型如下图所示。 * 决策树简介 根节点包含所有观测。 根据收入是否小于25488.5,将观测分别归于节点1和节点2。 对于属于节点1的观测,再根据拥有汽车的数量是否小于等 于3将观测分别归于节点3和节点4。 节点3和节点5不再进行进一步划分,则称其为叶节点。 对于属于节点2的观测,再根据孩子数量是否小于等于1将观测分别归于节点5和节点6。 对于树中各节点,都可计算其中各风险类别的比例。 * 决策树简介 对每个叶节点中的所有观测,决策树模型对其进行同样的分类。从根节点到每个叶节点的路径都会给出风险类别的一个预测规则。 举例来说,如果叶节点中的所有观测都被归类为该节点中比例最大的风险类别,图中节点3对应的预测规则为“如果收入小于25488.5并且拥有汽车数量小于等于3,那么风险类别为bad profit”。 * 决策树的生长与修剪 构建决策树时: 先根据训练数据集生成一棵足够大的决策树(“足够大”是指树足够深且叶节点足够多); 再使用修正数据集对树进行修剪,选取对修正数据集预测性能最好的子树。 * 决策树的生长与修剪 上述过程中有几个主要任务需要完成: 2.在决策树生长过程中,如何决定某个节点是叶节点还是需要进一步划分; 1.在决策树生长过程中,如果需要对某个节点进行进一步划分,为其选择划分规则; 3.决定每个叶节点的预测值; 4.修剪决策树。 * 决策树的生长与修剪 先考察因变量为可取值1,2, … ,K的分类变量的情形,此时建立的决策树是分类树。 首先来看如何为需要进一步划分的节点选择合适的划分(任务1)。 需要根据某个自变量的值,将节点t的观测划分入H个子节t1, … ,tH,pth表示划分入子节点th的观测比例(h=1, … ,H)。 * 候选划分集的生成 首先寻找所有可能的划分规则构成候选划分集S,再从中选择最优的划分。对每个自变量xr,可能的划分规则如下: 若xr是定序或连续自变量,可将训练数据集中该变量的取值按照从小到大的顺序排列,假设不重叠的取值为xr(1)xr(2) …xr(Mr),定义xr(Mr+1)=∞。 对于任何1=i0i1 … iH-1iH=Mr+1,都可构造一个候选划分:对h=1, … ,H,将满足 的观测划分入第h个子节点。 * 候选划分集的生成 若xr是名义变量,设其不同的取值为Vr={xr(1), … ,xr(Mr)}。 可以构造Vr的分割:ψ1, … , ψH,使得每个ψh都是Vr的真子集且互相之间交集为空集,再将xr取值属于ψh的观测划分入第h个子节点。 注意, ψ1, … , ψH的不同排列得到的划分是一样的,因此需要避免冗余。 * 候选划分集的约简 减少候选划分集的大小可以降低决策树建模的复杂度。有多种方法可以减少候选划分集的大小,例如:使用降维方法减少变量个数;通过数据分箱等方法减少定序或连续变量的不重复取值的个数;将名义变量归于更少的类别。 * 选择最优划分的准则一——不纯净性度量 要从S中选择最优划分,可使用节点的不纯净性度量Q(·)。 划分前t节点的不纯净性为Q(t); 划分后的平均不纯净性为: 。 S中的最优划分应使不纯净性下降最多,即 的值最大。 * 不纯净性度量(一)——基尼系数 令p(l│t)表示节点t中类别l的比例。 基尼系数: 若p(l│t)=……=p(K│t)=1/K(即节点t是最不“纯净”的),基尼系数达到最大值。 若某个p(l│t)等于1而其它类别的比例等于0(即节点t是最“纯净”的),基尼系数达到最小值。 基尼系数可解释为误分类的概率: 如果在节点t中随机抽取一个观测,那么该观测以p(l1│t)的概率属于类别l1(1≤l1≤K);若再将该观测按节点t内各类别的概率分布随机归类,它被归于类别l2的比例为p(l2│t)(1≤l2≤K);误分类的情形对应于l
您可能关注的文档
最近下载
- TCQAE.32025信息技术生僻字处理第3部分服务机构要求.pdf
- 医学影像检查技术学教案(本科).doc
- TCQAE.22025信息技术生僻字处理第2部分业务系统要求.pdf
- TCQAE.12025信息技术生僻字处理第1部分软件产品要求.pdf
- 《信息技术 生僻字处理要求 第 3 部分:服务机构》.PDF
- 《信息技术 生僻字处理要求 第 2 部分:业务系统》.PDF
- 国际结算(史燕平)第三章 国际结算方式--汇款方式与托收方式.ppt VIP
- 《信息技术 生僻字处理要求 第1部分:软件产品》.PDF
- 2025年青岛版(2024)小学科学三年级上册(全册)教学设计(附目录P150).docx
- 国际结算中的票据.pptx
文档评论(0)