- 1、本文档共30页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第九章节 回归分析(下)
最优尺度回归 假如要研究年龄、居住地和受教育程度对生育子女数的影响,明显居住地和受教育程度分布是定类和定序变量,此时不能用一般的线性回归。这时可以通过构造哑变量(虚拟变量)或通过最优尺度回归,而后者综合解释能力更强。 实现途径:Analyze-Regression-Optimal Scaling Thank you 第九章 SPSS回归分析(下) 本章内容 多元线性回归的回归诊断 9.5 曲线估计 9.6 线性回归的衍生模型 多元线性回归的回归诊断 检验模型假定是否成立 与一元线性回归一样,通过残差分析,检验有关假定是否成立,如正态性、独立性、等方差性等。 异常值探查 通过标准化残差来探察 影响点探查 所谓影响点,是指其非标准化残差并不大,但删去后回归直线发生很大改变的点。它们将导致拟合模型偏向该数据点。 影响点的检测主要包括以下几种方法: (1)与杠杆率有关的检测 (2)逐步排除异常个案 (3)是否影响回归系数的方差 影响点的检测方法 与杠杆率有关的检测 LEVER centered leverage,是各观测自变量的各取值在模型中作用的度量。该值越大,表明影响力越大。一般认为超过2×(p/n),则影响力过大 COOK’s距离,用于衡量第i个观测被删除后,回归系数的改变。是残差和中心化杠杆率的函数。Cook’s 值越大,影响力越强。经验上,一般COOK’s距离大于1 ,通常认为是影响点 ??Mahanobis距离:为杠杆值的n-1倍,是自变量上个案的值与所有个案的平均值相异程度的度量。大的Mahalanobis距离表示个案在一个或多个自变量上具有极值 影响点的检测方法 逐步排除异常个案 回归系数的变化及其标准化 DfBeta,从模型中删去一个特定观测后,比较回归系数的前后变化。 标准化DfBeta,通常该值大于2/sqrt(n)时,认为是影响点。 预测值变化及其标准化 DfFit从模型中删除某个观测后引起的预测值的变化 标准化DfFit,通常默认的标准是该值大于2/sqrt(p/n)时,为影响点。其中p为包括常数项的参数个数 影响点的检测方法 是否影响回归系数的方差 ??协方差比例,指的是个案对参数估计的“方差-协方差矩阵”的影响度,等于删除后协方差矩阵行列式/全部个案的协方差矩阵的行列式、接近于1时,表明影响不大。经验上|协方差比例-1|3×(p/n)的点可视为影响点 Save选项,该窗口将回归分析的某些结果以SPSS变量的形式保存到数据编辑窗口中,并可同时生成XML格式的文件,便于分析结果的网络发布。 (1)Predicted Values框中:保存非标准化预测值、标准化预测值、调整的预测值和预测值的均值标准误差。 (2)Distance框中:保存均值或个体预测值95%(默认)置信区间的下限值和上限值。 (3)Residual框中:保存非标准化残差、标准化残差等。 (4)Influence Statistics框中:保存剔除第i个样本后统计量的变化量。 总结回归模型的建立步骤 作出散点图,观察变量间的趋势。 考察数据的分布,进行必要的预处理,分析变量的正态性、方差齐等问题,进行必要变换。 进行直线回归分析,包括变量的选择,是否存在多重共线性等 残差分析,残差间是否对立(DW检验),残差是否正态和存在异方差,通过图示法观察。 强影响点的诊断和多重共线性问题的判断 只有5步全部通过才能认为是一个统计学上无误的模型,才能于实际应用结合进行分析和预测。 8.5 曲线估计 8.5.1 曲线估计概述 变量间的相关关系中,并不总是表现出线性关系,非线性关系也是极为常见的。变量之间的非线性关系可以划分为本质线性关系和本质非线性关系。本质线性关系是指变量关系形式上虽然呈非线性关系,但可通过变量变换为线性关系,并最终可通过线性回归分析建立线性模型。本质非线性关系是指变量关系不仅形式上呈非线性关系,而且也无法变换为线性关系。本节的曲线估计是解决本质线性关系问题的。 常见的本质线性模型有: 1、二次曲线(Quadratic),方程为 ,变量变换后的方程为 2、复合曲线(Compound),方程为 ,变量变换后的方程为 3、增长曲线(Growth),方程为 ,变量变换后的方程为 4、对数曲线(Logarithmic),方程为 ,变量变换后的线性方程为 5、三次曲线(Cubic),方程为 ,变量变换后的方程为 6、S曲线(S),方程为 ,变量变换后的方程为 7、指数曲线(Expone
文档评论(0)