第八章直线回归直线相关与logistic回归(上).doc

下载文档 降价啦

5
0
约6.68千字
约 10页
2016-04-18 发布于重庆
举报
版权申诉
保障服务

第八章直线回归直线相关与logistic回归(上).doc

1、本文档共10页，可阅读全部内容。
2、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。
3、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。

第八章直线回归直线相关与logistic回归(上)

第八章直线回归、直线相关与logistic回归（上）（医学统计之星）上次更新日期：直线回归与相关是联系非常紧密的两种统计分析方法，事实上SAS用于回归分析的程序步REG也可提供相关分析的结果，但进一步的深入分析仍应采用相应的程序步－－CORR才能实现。本章前三节主要介绍两个常用的用于直线回归和相关分析的程序步――REG过程和CORR过程。后两节则介绍多元线性回归和Logistic回归的方法和所用的过程。 §8.1 引例例8.1 今测定20名糖尿病人血糖水平（mmol/L）与胰岛素水平（mU/L），试以血糖为应变量Y，胰岛素为自变量X建立直线回归方程，并求两者的相关系数（医统第二版P104例6.1）。解：显然，在建立数据集时应指定血糖与胰岛素两个变量。再调用GPLOT过程绘制散点图观察有无直线趋势，然后调用REG过程求出直线回归方程，最后调用CORR过程求出相关系数。 ① 设定数据库环境： LIBNAME A ’C:\USER’; ② 数据步，建立数据集： DATA A.YTLI7_1; 　INPUT Y X @@; 　CARDS; 　12.21 15.2 14.54 16.7 12.27 11.9 12.04 14.0 7.88 19.8 11.10 16.2 　10.43 17.0 13.32 10.3 19.59 5.9 9.05 18.7 6.44 25.1 9.49 16.4 　10.16 22.0 8.38 23.1 8.49 23.2 7.71 25.0 11.38 16.8 10.82 11.2 　12.49 13.7 9.21 24.4　 ; RUN; PROC GPLOT DATA=A.YTLI7_1; 　PLOT Y*X; RUN; REG过程，进行直线回归分析： PROC REG DATA=A.YTLI7_1; 　MODEL Y = X; RUN; ⑤ CORR过程，进行相关分析： PROC CORR DATA=A.YTLI7_1; 　VAR X Y ; RUN; §8.2 REG过程 SAS/STAT模块提供了近十个用于回归分析的过程，其中REG过程是进行一般线性回归分析最常用的过程，该过程采用最小二乘法拟合线性模型，可产生有关数据的一些描述统计量、参数估计和假设检验以及散点图，输出预测值、残差、学生化残差、可信限等，并可将这些结果输出到一个新的SAS数据集中。 8.2.1 语法格式 REG过程的语法格式如下： PROC REG [DATA=数据集名 [选项] ] ; MODEL 应变量名=自变量名列/ [选项] ;[1] [VAR 变量名列;[2] 　FREQ 变量名; 　WEIGHT 变量名; 　BY 变量名列; 　OUTPUT OUT=新数据集名关键字=新变量名 ...; PLOT 纵坐标变量*横坐标变量[=绘图符号]... / [选项];[3]] 8.2.2 程序中全部语句中只有第一行和MODEL语句是必需的，其他都可以省略。 MODEL语句，必需语句，定义回归分析模型 VAR语句为可选的，指定用于计算交叉积的变量 PLOT语句为可选的，用于绘制变量间的散点图，还可添加回归线。【过程选项】 OUTEST=数据集名指定统计量和参数估计输出的新数据集名。 NOPRINT 禁止统计结果在OUTPUT视窗中输出。 SIMPLE 输出REG过程中所用的每个变量的基本统计量。 CORR 输出MODEL语句或VAR语句中所列变量的相关矩阵。 ALL 等价于MODEL语句加上全部选项，即输出该语句所有选项分析结果。【MODEL语句】 MODEL语句定义模型中的因变量、自变量、模型选项及结果输出选项。语句中的变量只能是数据集中的变量，任何形式的变换都必须先产生一个新变量，然后用于分析。如X1的二次项，不能在模型中直接指定X1*X1，而要产生另一个新变量代表X1*X1，方可引入模型。 MODEL语句中常用的选项有： NOINT 在模型中不拟合常数项。 STB 输出标准化回归系数。 CLI 输出个体预测值的95%可信区间上下限。 CLM 输出因变量期望值(均值)的95%可信区间上下限。 R 输出个体预测值、残差及其标准误。 P 输出实际值Yi、预测值和残差等。如已选择了CLI、CLM和R，则无需选择P。【关键字】 REG过程中OUTPUT语句的用法和UNIVARIATE过程中的用法相同，只是会用到另一些关键字。关键字用来定义需要输出到新数据集中的统计量，常用的关键字及其含义有： PREDICTED 因变量预测值(简写为P) RESIDUAL 残差(简写为R) L95M、U95M 均数95%可信区间上下限 L9