分类与回归树.pdfVIP

  1. 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
  2. 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  3. 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  4. 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  5. 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  6. 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  7. 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分类与回归树

第三讲 分类与回归树 如果一个人必须去选择在很大范围的情形下性能都好的、同时不需要应用开发者付出 很多的努力并且易于被终端用户理解的分类技术的话,那么 Brieman, Friedman, Olshen 和 Stone (1984)提出的分类树方法是一个强有力的竞争者。我们将首先讨论这个分类的过程, 然后在后续的节中我们将展示这个过程是如何被用来预测连续的因变量。Brieman 等人用来 实现这些过程的程序被称为分类和回归树(CART )方法。 分类树 在分类树下面有两个关键的思想。第一个是关于递归地划分自变量空间的想法;第二 个想法是用验证数据进行剪枝。 递归划分 x x , x ,..., 让我们用变量 表示因变量(分类变量),用 表示自变量。通过递归的方式 y 1 2 p 把关于变量x 的 维空间划分为不重叠的矩形。这个划分是以递归方式完成的。首先,一 p 个自变量被选择,比如 和 的一个值 ,比方说选择 把 维空间为两部分:一部分是 xi xi si si p 维的超矩形,其中包含的点都满足 x s ≤ ,另一个 维超矩形包含所有的点满足 p − i i p − x i s i 。接着,这两部分中的一个部分通过选择一个变量和该变量的划分值以相似的方式 被划分。这导致了三个矩形区域(从这里往后我们把超矩形都说成矩形)。随着这个过程的 持续,我们得到的矩形越来越小。这个想法是把整个x 空间划分为矩形,其中的每个小矩形 都尽可能是同构的或“纯”的。“纯”的意思是(矩形)所包含的点都属于同一类。我们认 为包含的点都只属于一个类(当然,这不总是可能的,因为经常存在一些属于不同类的点, 但这些点的自变量有完全相同的值)。让我们例示递归划分的过程。 例1 (Johnson 和Wichern ) 乘式割草机制造商意欲发现一个把城市中的家庭分成那些愿意购买乘式割草机和不愿 意购买的两类的方法。在这个城市的家庭中随机抽取12 个拥有者和12 个非拥有者的家庭作 为样本。这些数据如表1 所示。这里的自变量是收入( )和草地面积( )。类别变量 x1 x2 y 有两个类别:拥有者和非拥有者。 表1 观测点序号 收入(千美元) 草地面积(千平方尺) 拥有者=1, 非拥有者=2 1 60 18.4 1 2 85.5 16.8 1 3 64.8 21.6 1 4 61.5 20.8 1 5 87 23.6 1 1 6 110.1 19.2 1 7 108 17.6 1 8 82.8

文档评论(0)

zhaoxiaoj + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档