STA333第25和26章翻译–统计1107班–曹佳星.docVIP

下载本文档

2
0
约 15页
2017-05-20 发布于北京
举报
版权申诉

STA333第25和26章翻译–统计1107班–曹佳星.doc

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

STA333第25和26章翻译–统计1107班–曹佳星

STA333 第25章回归和分类树 (第1部分) 25.1 说明当我们运用回归分析时, 其中一个主要目的是决定因变量Y与自变量X存在什么样的关系. 然而在练习中, 我们并不局限于只是考虑一个自变量: 通过使用许多自变量 (X1, X2, …, Xk) 去确定因变量Y的价值的概念在数据分析中广泛的运用。举个例子，考虑下列情形: ? 你患上心脏病的风险也许同时受很多潜在因素的影响: 你的体重，你是否有心脏病的家族遗传史, 是否有糖尿病, 运动的时间，你的血压, 等等. ? 汽车的汽油英里数受到很多方面的影响: 汽车的重量,发动机有多少气缸, 汽车外形是否符合空气动力学, 等等. ?一个邮件过滤器能识别出一封收到的邮件是否是垃圾邮件也许与许多潜在因素有关: 例如. 主要信件的文字总长，金钱这个词在信件中出现的频率, 在信件中出现“XXX” 的特征, 等等. 在实际中，标准数据分析工具用于这样的问题就是多元回归. 在多元回归中，我们试图运用一些规定的数学函数将因变量Y与自变量联系起来。 Y = 0 + 1X1 + 2X2 + … + kXk + 被估计的参数β和过去经常发生预测的Y 并且去决定哪一个变量对Y最具影响. 明显地, 这是一种参数方法推理关于Y取决于参数β的估计值和回归误差的假定。描述潜在自变量如何影响因变量的另一种方法是为了全面地辨别Y的值而考虑用关于X的值划定最后界限。举个例子, 假定心脏收缩的血压水平“划定最后界限”为144 将比我们划定其他心脏收缩的血压水平界限更好的去分一个人是否患有心脏病。事实上, 划分取样分为两组: ? 心脏收缩的血压水平≤144. ? 心脏收缩的血压水平144. 在每个组内, 心脏病流行依据有最全面的相似点,但是组间却有最全面的不同点。换句话说,我们选择自变量X的分裂点以便使因变量Y的值在每个组内尽可能的同质并且在组织间尽可能的不同。没有理由就只分裂一次，如果要最大限度的决定Y我们可以在自变量的很多部分进行分裂。举个例子,我们可以得到两个以上的基于血压水平的组。更普遍的,我们可以在几个不同的自变量同时执行分裂。这种处理方式称作递归的分区, 并且这是在数据挖掘技术中经常使用的主要统计工具。 237 25.2 什么是数据挖掘技术? 也许在这一点上,简单介绍一下“数据挖掘技术”是必要的。数据挖掘技术是一种处理方法可以分析得自不同观点的数据并且汇总出有用信息比如可以提高税收，降低成本等。技术上而言, 数据挖掘技术是一种在大有关联的数据库中从许多变量中寻找一种模式或结构的处理方法。例如: Your Kroger Plus card. 位于美国中西部的连锁店Kroger使用数据挖掘技术来分析当地人的购买模式。他们在你刷你的Kroger Plus卡时收集数据. 它是如何工作的? 通过数据挖掘技术假定消费者们的购物模式, 他们发现在周四和周六男人购买尿布时, 他们通常会购买啤酒。让我们进一步来分析这个现象发现这些消费者在每周六购买他们的所需品非常有代表性。然而在周四, 他们只购买一点儿商品。 Kroger 决定他们可以为即将当来的周末买啤酒。连锁店可以利用这个信息在个方便提高收益。举个例子,他们可以把啤酒显示接近尿布显示。或者,他们可在周四确定啤酒和尿布是全价。你将得到下表。数据挖掘技术有五步构成: ? 从数据“warehouse”中提取并装载数据（例如：购买交易）。 ? 在多维数据库系统中储存并控制数据。 ? 向商业分析师和IT专业人员提供数据。 ? 用软件分析数据。 ? 在应用格式中呈现分析结果,例如图形或表格形式。许多类型的数据挖掘分析是可能的, 但是我们将要谈论的一个 (暂时地！) 称为决策树。树状结构代表一套决策, 并且这些决策生成数据及的分类规则。发展中的决策树的非参数统计方法就是分类和回归树(CART)。这些规定了一系列的规则以至于你可以适应于新的数据集去预测将要得到的结果。这些“规则”通过寻找最佳的数据“溢出点”被开发, 这就是递归分区发挥作用的过程。238 25.3 递归分区 101 递归分区的背后想法是去重复的选择最优作用的预测变量并且用它来对数据分层。每层里, 我们选择数据中最有作用的自变量和子分层直到这个层非常小我们已经将数据用完为止。这些的结果就是决策树。如果因变量Y 是一个类别变量 (e.g. 你是否患有心脏病?), 这个决策树也可以叫做分类树. 如果 Y 是一个连续数变量(e.g. 考虑到汽车的油耗是多少?), 又可以叫做回归树。故意地,每层种的因变量都尽可能的相似。递归分区在给数据提供模型或者制定详细的预测方面并不是特别的好,这个数据挖掘技术程序的有效性是不但找到数据的主要分