- 1、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。。
- 2、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 4、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 5、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 6、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 7、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
第九章 双变量回归与相关 变量间关系问题 年龄~身高、肺活量~体重、药物剂量与动物死亡率等 两种关系 依存关系:应变量 Y随自变量X变化而变化 ———回归分析 互依关系:应变量Y与自变量 X间的彼此关系 ———相关分析 Galton数据散点图(英寸) 直线回归分析的核心任务是建立两个连续型变量间最优化的直线回归模型,从而采用x对y进行估计或预测。其统计模型可表述为: 用样本数据获得该数学模型的估计称为回归方程,即: 每个观测的y值都可以分解成三个部分: 常量α(constant):即回归直线在纵坐标上的截距(intercept),它是y的本底水平,即x对y没有任何作用时,y的数量表现。 回归部分βx:它刻画了应变量y的取值改变中,由y与自变量x的线性相关关系所引起的部分,即可以由x直接估计的部分。其中,x是自变量的取值。β称为回归系数(coefficient of regression),或回归直线的斜率(slope), β的数值的意义是指当自变量x每改变一个度量单位时,因变量y的改变量的平均估计值。 上述两部分之和用回归方程解释,就是yi在xi处的平均估计值,即为(a+bxi) 回归估计误差εi (errors of regression estimation) 线性 Linearity 反应变量均数 ?与X间呈线性关系 ?Y|X= α + ?X 最小二乘法原则 (least square method):使各实际散点(Y)到直线( )的纵向距离的平方和最小。即使 最小。 样本测量数据估计b的算法 样本的截距a的计算公式 回归参数假设检验的目的是判断样本回归系数是否是从回 归系数为0的总体中随机抽取的。或者说,如果总体回归系数 为0,样本回归系数不等于0是否由不寻常的抽样误差所导致。 b≠0原因:① 由于抽样误差引起,总体回归系数β=0 ② 存在回归关系,总体回归系数β≠0 剩余(残差)标准差 SY|X 斜率b的假设检验 H0: ? = 0 H1: ? ? 0 ? ? 0.05 ν ? 8 - 2 = 6 临界值 回归变异MS回(variation caused by regression):又称回归均方(mean of squares for regression),由于y对x的回归所解释的y的变异。将因变量y与自变量x关联起来进行回归后,回归模型为我们提供了通过给定x估计y的平均水平的途径。因此,y中由于x的作用导致的回归变异就可以被分离出来。其含义也被解释为是x通过回归关系对y的变异产生的贡献。 残差变异MS残(variation caused by residuals):又称残差均方(mean of squares for residuals),由除x以外所有其它因素导致的y的变异,因此,其含义是y的变异中不能由x解释的部分。它在性质上属于随机变异。 (二)总体截距a的区间估计 (三) 的区间估计 (三) 的区间估计 (四)个体Y值的预测区间 (四)个体Y值的预测区间 95% 的置信区间与 个体 Y 的预测区间有关数据 各X所对应的总体均数的(1-α)双侧置信区间的两端点形成两条光滑的曲线,构成形似“领结”的弧形区带,称为回归直线的(1-α)置信带(confidence band)。在均数 处置信带宽度最小,越远离该均数点,置信带宽度越大。 (1-α)置信带的意义是:在满足线性回归的假设条件下,可以认为真实的回归直线落在两条弧形曲线所形成的区带内,置信度为(1-α)。 当同时考虑X的所有可能取值时,个体Y值的95%预测区间形成一个带子,称为Y值的95%预测带。它比总体回归线95%置信带更宽。 在相同置信度下,个体值预测带的曲线要比回归线置信带的曲线离回归直线更远。 95% 的置信区间与个体 Y 的预测区间图 残差(residual)是指观测值Yi与回归模型拟合值之差 残差分析(residual analysis)旨在通过残差深入了解数据与模型之间的关系,评价实际资料是否符合回归模型假设,识别异常点等 例如,第一数据点的残差e1=3.54-3.471=0.069,如此类推,计算出各数据点的残差值。将各数据点的残差减去其均数,除以其标准差,便得标准化残差 以反应变量取值Yi(或自变量取值Xi )为横坐标,以标准化残差为纵坐标,构成的散点图统称为标准化残差图。 图9-2 相关系数示意图 图9-2 相关系数示意图
文档评论(0)