用SAS来实现回归.docVIP

  • 5
  • 0
  • 约4.06千字
  • 约 10页
  • 2017-02-08 发布于重庆
  • 举报
用SAS来实现回归

SAS学习 题目: Project-2 姓 名: 许小平 学 号:20100084180 指导老师:龚进容 2011年 01月 引言:某种疾病爆发,其患者总是或多或少都具有一些共同的特征,例如他们生活的自然环境,偏好的饮食习惯,所处的地理位置,社会环境,等等。研究这些特征,找出爆发这种疾病的影响因素,便于采取有效的措施预防和控制这种疾病的蔓延。这种研究无论是在医学上还是在人类发展史上都具有十分重要的意义。 一、数据的描述 本案例是对同一个城市的两个地区的可能爆发某种疾病的调查,它有196个样本观测值,每个观测值包括以下5个变量:被调查者的年龄(Age)、被调查者的社会地位(Soc-s)(其中1表示处于上流社会,2表示中产阶级,3表示下层社会)、被调查者所在的地区(Sector)(其中1表示地区1,2表示地区2)、被调查者是否患有该种疾病(Disease)(其中0表示没有患这种疾病,1表示患有这种疾病)以及被调查者是否有储蓄存款(Save)(其中,0表示没有储蓄存款,1表示有储蓄存款)。 对此数据的描述性统计结果如下表所示: 表1 “疾病爆发”数据的描述性统计分析 根据此数据建立适当的模型,看这些变量对疾病的爆发是否有显著影响,影响程度如何。 二、目的 1.建立一个合适Logistic模型,看这些变量中哪些变量对疾病的爆发有显著影响,影响程度如何,从而可以对疾病的预防与控制提出适当的建议,以便采取有效措施。 2.在建模的过程中帮助我们复习Logistic回归分析,加深对的理论知识的学习。同时也熟悉对SAS统计软件的操作能力。 3.加强我们的动手能力与实践能力,对应用统计有更深的认识。 三、建立模型的基本理论 对于被解释变量是定性数据的情况,通常是建立Logistic模型。以二分变量为例: Yi Prob(Yi) 1 0 P(Yi=1)= (i P(Yi=0)= 1-(i P(Yi=k)= , k=0,1 对于只有一个解释变量的情况,在Xi 水平下得到的Yi =1的概率为: 由此,得到的Logistic函数为: 其中,表示Xi 每增加一个单位,对数机会比率(ln-odds)就会相应增加个单位。 对于Logistic模型,可以用极大似然法估计参数、。使似然函数: 达到最大时的b0 、b1 就是对应的、 的估计值。由此可以得到Logistic函数以及Xi 与Yi 之间的关系。 四、建模 对于本案例,我们用三分之二的数据建立一个Logistic模型,再用余下的三分之一的数据进行预测。由于此数据并没有按顺序排列,所以我们可以选取前130个观测值来建模,用剩下的66个观测值进行预测。 变量的选择 首先,把所有的解释变量都选入模型,进行初步回归,回归的结果如下: 表2 初步回归的参数估计表 对于被调查者的社会地位与是否有储蓄存款的参数估计的结果是不显著的,说明所有的变量不一定要全部选入模型。于是,我们用AIC、SBC、向前选择、向后剔除、逐步回归、-2Ln(b)、Score Chi-square等方法选择合适的变量加入模型。 我们由SAS程序得到的SBC的结果如下表: 表3 最佳子集的SBC表 Best Subset SBC Sector Sector and Age Sector Age and Save Sector Age Save and Socs 149.828 145.113 147.997 152.644 从上表可以看出:通过SBC法则得到的最佳模型子集是:被调查者所在地区(Sector) 和他们的年龄(Age)。 为了更方便地建模,我们用Y表示被调查者是否患有该种疾病(Disease),用X1表示被调查者的年龄(Age),用X2表示被调查者所在的地区(Sector)。由此可以得到的回归模型为: 即: 其中,、、都为未知参数; 表示同一个地区时,年龄每增加一岁,可能爆发疾病的机会比率的对数(ln-odds) 将会增加个单位; 表示年龄相同时,处于地区2的居民会患有该种疾病的机会比率的对数(ln-odds) 将会比处以地区1的高个单位。 模型的诊断: 对于Logistic模型,在我们已经选好模型后,主要的

文档评论(0)

1亿VIP精品文档

相关文档