- 1、本文档共59页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
11杨永利-多重线性回归与相关PPT
第十三章 多重线性回归分析; 生物医学研究领域中的多因素相互作用现象非常普遍。如身高不仅受到遗传因素的影响,而且还受到营养状况、体育锻炼情况、居住环境因素的作用。血压的高低除了与年龄有关外,还与家族史、饮食习惯、劳动强度等因素有关。本章介绍如何采用多重线性回归分析定量刻画多个因素对结果指标(如身高、血压)的影响。;教学内容;教学目的和要求;一、多重线性回归模型拟合实例
;;【案例分析】; 多重线性回归分析是简单线性回归分析的推广,它研究的是一组自变量如何直接影响一个因变量。这里自变量指的是能独立自由变化的变量,一般用表示X;因变量指的是非独立的、受其它变量影响的变量,一般用Y表示。 ; 单因单果---简单线性回归和相关分析
多因单果---多重线性回归与相关分析
多因多果---典型相关分析;多元回归分析;路径分析,验证性因子分析;二、多重线性回归分析的基本原理;图13-1 两个自变量时,回归平面示意图; 例如,收集n个样本在指标变量Y ,X1和X2上的观察值,拟合一个Y关于X1和X2的二元线性回归模型。因为这个模型是三维空间中的一个平面,因此,二元线性回归分析的几何意义就是要从三维空间里所有的平面中找出一个最优平面,使得这个最优平面最大限度地靠近n组观测值对应的三维空间中的 n个点( X1,X2 ,Y)。 ; 多重线性回归分析是借助于一个数学模型来揭示总体中若干个自变量与一个因变量之间的线性依存关系,并评估用这一数学模型模拟相关事物变化规律的准确性。 ;三、多重线性回归分析的数学模型; 式中Yj是第i样品因变量的实测值
β0为常数项,即截距
βi是偏回归系数,它表示在其它自变量固定不变的情况下,Xj每改变一个测量单位时所引起的应变量Y的平均改变量
εi为残差,服从N(0,σ2)分布。;四、模型条件(LINE);;五、多重线性回归分析的基本步骤 ;【电脑实验】;【Dependent框】用于选入回归分析的应变量。
【Block按钮组】 由Previous和Next两个按钮组成,用于将下面Independent框中选入的自变量分组。如果对不同的自变量选入的方法不同,则用该按钮组将自变量分组选入即可。; 在许多研究中,多重线性回归分析的目的是建立一个预测效果的最优模型,一般要求在回归模型中尽可能多的引入自变量并要求模型中的所有自变量对反应变量的影响都有统计学意义。因此需要对模型中自变量进行筛选。;自变量筛选的统计学标准;【Statistics钮】用于选择所需要的描述统计量
Regression Coefficients:定义回归系数的输出情况,回归系数B及其标准误,t值和p值,还有标准化的回归系数beta;选中Confidence intervals则输出每个回归系数的95%可信区间。
Residuals:用于选择输出残差诊断的信息。
Model fit:模型拟合优度检验。
Descriptives:提供一些变量描述,如有效例数、均数、标准差等。
Collinearity diagnostics:给出一些用于共线性诊断的统计量,如特征根(Eigenvalues)、方差膨胀因子(VIF)等。 ;【电脑实验】;【电脑实验】;未标准化的回归系数(偏回归系数):用来构建回归方程,即方程中各自变量的斜率。
标准化的回归系数:用于综合评价各解释变量对因变量Y的贡献大小,标准化的回归系数越大,说明X对Y的影响幅度越大。
;根据强行回归法输出结果,构建回归方程;STEPWISE;STEPWISE;STEPWISE; 对于同一份数据,用不同的方法筛选的自变量未必相同,用统计学方法选择变量只是一种初筛,不能作为定论,更不能代替与问题有关的专业知识,在进行回归分析之前必须梳理自变量,区分主要因素与次要因素,并要理清变量之间的相互联系。;根据逐步回归法输出结果,构建回归方程;二、模型假设诊断;;;散点随预测值的变化而变化,提示资料不满足方差齐性的假定。; 关于独立性的核查,可以通过计算Durbin-Watson统计量来判断。该统计量的取值一般在0-4之间,如果残差之间相互独立,则取值在2左右,如果取值接近0或4,则提示不满足独立性。;例17-5的模型假设诊断—正态性; 如果残差不服从正态分布,可以对因变量进行变量转换,如,取对数,使得因变量近似服从正态分布。;例17-5的模型假设诊断—线性、方差齐性;;条件数
方差膨胀因子
方差成分
相关矩阵;如果两个自变量之间的相关系数超过0.9,则会带来共线性问题,如果在0.8以下,一般不会出现多大问题。;经验表明:VIF大于5或10时,存在严重的共线性;一般地,当条件数(condition index)大于10,且有两个以上的
文档评论(0)