回归分析(regressionanalysis).docVIP

  1. 1、本文档共3页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
  5. 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
  6. 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们
  7. 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
  8. 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
回归分析(regressionanalysis).doc

回归分析(regression analysis) 概述 回归分析是寻求成对出现的一组数值型数据之间的关系模型的一种统计工具,这咱关系模型是一条直线或曲线。回归分析就是要找到这条直线或曲线的方程,以及度量模型对数据拟合优度的判定系数r2和其他一些统计工具。  线性回归是通过绘制数据的散布图来拟合一条最优直线。本部分将就这种最简单的回归类型展开讨沦。非线性回归是寻求与数据最优的曲线。多元回归是解决一个因变量受多个自变量影响的问题。非线性和多元回归都过于复杂,需要使用时可以寻求统计学家的帮助。 适用场合 ·当取得一组成对出现的数据型数据时; ·在绘制完成数据的散布图后; ·当要了解自变量的变化对因变量有怎样的影响时; ·当掌握了自变量的信息,想要预测因变量的变化情况时; ·当需要得到直线或曲线对数据的拟合程度的统汁测量结果时。 实施步骤 线性回归可以用手工完成,但是通过计算机软件可以大大简化运算。按照软件说明逐步完成分析过程。回归分析会得到与数据最优拟合的回归直线图形以及一张统计表格,包括: ·回归直线的斜率。直线方程的形式是:,m是斜率,代表当自变量x增加一个单位时,因变量将随之增加一个单位。正的斜率意味着回归线是由左向右上方倾斜的;负斜率说明回归线向下方倾斜(的上标是用来提醒它只是因变量)估计值,而不是真实值)。 ·回归直线的截距。在直绒方程中,常数b代表截距。它是直线与y轴交点处的值。得到斜率和截距值后,就可以根据等式画出回归线或按照给定的x值估计y的值了。 ·判定系数r2。r2的值介于0和1之间,是对同归线与数据拟合程度的度量。如果,r2=1,代表直线与数据完全吻合。随着r2值的减小,表示拟合度越差,得到的估计值也更不准确。将r2看作是y的变动中可以用回归直线解释的那部分,因为大部分的数据点都不会准确地落在回归线上,不能用回归线解释的那部分(1—r2)是残差。 ·置信区间,置信水平一般取95%。就是根据之前一次或多次统计计算得到的一个区间。意味着统计的真值有95%的可能落在这个范围之内。一个置信水平为95%的置信区间表示的就是实际的回归线有95%可能落在空间。 ·结果中还可能包含其他参数。可以参阅软件的用户向导或帮助功能、统计教材,或者通过统计学家了解更多的相关知识。 示例 ZZ-400生产单位为了判断产品的纯度是否与铁的含量有关,收集了一组数据。 本例是第4章ZZ-400质量改进案例的一部分。他们首先绘制了数据的散布图,参阅“散布图”以及“分层法”,随后进行了回归分析。 图表5.164给出了所有数据构成的回归线。判定系数r2的值是0.172,说明拟合性不好。 根据反应器的不同将数据分组。图表5.165是分别对每个反应器的数据计算得到的回归线,表5.13给出了结果数据。 表5.13 回归分析示例 反应器1 反应器2 反应器3 斜率 -0.64 -1.92 -1.83 截距 99.47 100.1 99.23 判定系数r2 0.105 0.880 0.858 反应器2和反应器3的回归线拟合性良好。回归线两侧的虚线表示的是置信区间的边界。注意看它们比所有数据的置信区间窄了多少。反应器1的回归线拟合性不好,置信区间很宽。因此从散布图中可以看出,反应器1的情况与其他反应器有所不同。 注意事项 ·回归分析得到的是因变量随可控的自变量变化的模型。两个变量中哪个放在x轴哪个放在y轴,将会对结果产生影响。如果将变量对调,会得到不同的结果。牢记回归分析是用变量x预测变量y,所以要认真考虑如何分配变量。 ·相关分析与回归分析不同,它是研究两个变量之间的相关程度,而不是估算与数据吻合的直线模型,详情请参阅“相关分析法”。 ·对于线性回归,r2值等于零说明变量x和y没有线性关系,贯穿数据点的水平线是最理想的结果,但有时曲线可能会更好地描述两者的关系。因此,通常应该先观察数据的散布图,根据数据点的分布情况再选择使用线性或非线性回归。 ·先观察散布图的另一个原因是即使分布特征完全不同的数据,也可能得到相同的统计结果。通过观察散布图还可以发现偏离很远的点以及其他可能歪曲统计计算过程的分布特点,保证及时将其排除。 ·回归分析通常使用“最小二乘法”来寻找最优的拟合模型。首先计算残差——数据点与回归线的垂直距离,然后取所有残差值的平方和。拥有最小和值的直线就是拟合最优的回归线。 ·如果在散布图中存在很好的相关性,但并不表示变量y的变化是由变量x引起的,那么可能是变量y引起变量x变化的,或者存在同时影响两个变量的第三个变量。 ·如果应用散布图得到的回归图像没有显示出变量间的关系,考虑自变量

文档评论(0)

docinpfd + 关注
实名认证
文档贡献者

该用户很懒,什么也没介绍

版权声明书
用户编号:5212202040000002

1亿VIP精品文档

相关文档