第三讲 SAS的基本统计分析.pptVIP

下载本文档

7
0
约2.11万字
约 52页
2015-09-13 发布于广东
举报
版权申诉

第三讲 SAS的基本统计分析.ppt

1、原创力文档（book118）网站文档一经付费（服务费），不意味着购买了该文档的版权，仅供个人/单位学习、研究之用，不得用于商业用途，未经授权，严禁复制、发行、汇编、翻译或者网络传播等，侵权必究。。
2、本站所有内容均由合作方或网友上传，本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺！文档内容仅供研究参考，付费前请自行鉴别。如您付费，意味着您自己接受本站规则且自行承担风险，本站不退款、不进行额外附加服务；查看《如何避免下载的几个坑》。如果您已付费下载过本站文档，您可以点击这里二次下载。
3、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等，请点击“版权申诉”（推荐），也可以打举报电话：400-050-0827(电话支持时间：9:00-18:30)。
4、该文档为VIP文档，如果想要下载，成为VIP会员后，下载免费。
5、成为VIP后，下载本文档将扣除1次下载权益。下载后，不支持退款、换文档。如有疑问请联系我们。
6、成为VIP后，您将拥有八大权益，权益包括：VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
7、VIP文档为合作方或网友上传，每下载1次，网站将根据用户上传文档的质量评分、类型等，对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档

第三讲 SAS的基本统计分析

SAS基本统计分析概论一些单变量检验问题一些单变量检验问题一些单变量检验问题一些单变量检验问题一些单变量检验问题 The End of Session 残差对预测值散点图 Residual为残差。Residual Normal Quantile是残差由小到大排序后对应的标准正态的分位数，第个残差的正态分位数用计算，其中为残差除以其标准误差。Studentized Residual（学生化残差）为与标准化残差类似，但计算第个学生化残差时预测值和方差估计都是在删除第个观测后得到的。当学生化残差的值超过2时这个观测有可能是强影响点或异常点。为标准正态分布函数。Standardized Residual（标准化误差）关于其它的一些诊断统计量请参考帮助菜单的“Extended Help | SAS System Help: Main menu | Help for SAS Products | SAS/INSIGHT | Techniques | Multiple Regression”，或《 SAS应用统计实验》《 SAS应用统计教程》。在SAS/INSIGHT中，为了保存结果表格，在进行分析之前选中菜单“File | Save | Initial Tables”，这是一个状态开关，选中时输出表格画在分析窗口内的同时显示在输出（Output）窗口。如果要保存某一个表格，也可以选定此表格（单击表格外框线），然后用菜单“File | Save | Tables”。为了保存分析窗口的图形，先选定此图形，然后选“File | Save | Graphics File”，输入一个文件名，选择一种文件类型如BMP即可。为了打印某一表格或图形，先选定它，然后用菜单“File | Print”。选中“File | Save | Statements”可以开始保存SAS/INSIGHT语句。案例：用INSIGHT对数据集CARS 做回归诊断用SAS/INSIGHT拟合广义线性模型经典线性回归理论的估计与假设检验要求自变量为常数（非随机），随机误差项满足广义线性模型放宽了这些假设，其模型为其中因变量（为服从指数族分布（如正态、逆高斯、伽马、泊松、二项分布）的随机变量，（向量）的元素为与分布类型相同的随机误差项，元素之间叫做联系函数，它把因变量的均值与自变量（阵）的线性组合联系起来。（向量）为回归系数。模型中每个自变量对应于设计阵中的一列或几列，的第一列一般元素全为1，对应于截距项。（向量）是表示偏移量的变量。向量）的元素相互独立，单调函数。注：随机变量Y称为服从指数族分布，如果其分布密度（概率函数）有如下形式：其中为自然参数或称经典参数，为分散度参数（与尺度参数相关），a, b, c为确定性函数。这样的自变量Y的均值和方差与参数的关系如下：为了使用SAS/INSIGHT拟合广义线性模型，在选“Analyze | Fit (Y X)”之后，选定因变量和自变量，然后按“Method”按钮，出现选择模型的对话框，在这里可以选因变量的分布类型（Response Dist.），选联系函数，选估计尺度参数的方法。各联系函数定义如下：对指数族中每一个因变量分布有一个特定的联系函数，使得，即用分布的期望值表示经典参数，这样的联系函数叫经典（canonical）联系函数。正态分布的经典联系函数为恒等变换，逆高斯分布为-2次方变换，伽玛分布为-1次方变换，泊松分布为对数变换，二项分布为逻辑变换（Logit）。注意Logit、probit、复合重对数变换都只适用于二项分布。例如，SASUSER.INGOTS中存放了一个铸造厂的数据，它记录了各批铸件在一定的加热、浸泡时间条件下出现的不能开始轧制的铸件数目。HEAT为加热时间，SOAK为浸泡时间，N为每批铸件的件数，R为加热浸泡后N件铸件中还不能开始轧制的铸件数。R应该服从二项分布，其分布参数（比例）可能受加热、浸泡时间的影响。因此，我们拟合以R为因变量，以HEAT和SOAK为自变量的广义线性模型，因变量分布为二项分布，使用经典联系函数（Logit函数）。模型为为了拟合这样的模型，选“Analyze | Fit(Y X)”，选R为Y变量，选HEAT和SOAK为自变量，按“Method”钮，选因变量分布为二项分布（Binomial），选变量N然后按“Binomial”钮，两次OK后即可以得到模型拟合窗口。可以看到，这个模型是显著的，但变量SOAK没有显著影响。去掉变量SOAK重新拟合模型。可以看出，HEAT的系数为0.0807是正数，说明加热时间越长不能轧制的件数越多。考察拟合结果窗口下方的残差对预报值图