回归分析 5.ppt

  1. 1、本文档共71页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
回归分析 5

* Poisson分布简介 在某些固定的条件下, 人们认为某些事件出现的次数服从Poisson分布, 比如在某一个时间段内某种疾病的发生病数, 显微镜下的微生物数, 血球数, 门诊病人数, 投保数, 商店的顾客数, 公共汽车到达数, 电话接通数等等. 然而, 条件是不断变化的. 因此, 所涉及的Poisson分布的参数也随着变化. * Poisson对数线性模型 假定哮喘发生服从Poisson分布;但是由于条件不同,Poisson分布的参数l也应该随着条件的变化而改变。这里的条件就是给出的性别、空气污染程度与年龄。当然,如何影响以及这些条件影响是否显著则是我们所关心的。这个模型可以写成 这里m为常数项,ai为性别(i=1,2分别代表女性和男性两个水平),bj为空气污染程度(j=1,2,3代表低、中高三个污染水平),x为连续变量年龄,而g为年龄前面的系数,eij为残差项。 * * * Poisson对数线性模型 从对于数据(asthma.sav)的Poisson对数线性模型的相应SPSS输出,可以得到对m的估计为4.9820,对ai的两个值的“估计”为-0.0608、 0.0000,对bj的三个值的“估计”为-0.1484,0.1223、0.0000,对g的估计为 0.0126。 注意,这里的对主效应aI和bj的估计只有相对意义;它们在一个参数为0的约束条件下得到的。 从模型看上去,年龄和性别对哮喘影响都不那么重要。轻度污染显然比中度污染和严重污染哮喘要好。但是似乎严重污染时哮喘稍微比中度污染少些(差别不显著)。 通过更进一步的分析(这里不进行),可以发现,中度和严重空气污染(无论单独还是一起)和轻度空气污染比较都显著增加哮喘人数,而中度及严重污染时的哮喘人数并没有显著区别。 * SPSS的实现 [数据asthma.sav] 假定已经加权 这时的选项为Analyze-Loglinear-General, 首先选择格子中频数的分布,这里是Poisson分布。 然后把两个变量(sex,polut)选入Factors(因子),把age选入Cell Covariate(s)。 再选Model(模型),这里以选Custom(自定义),在Building Terms(构造模型的项)选Main effect(主效应),再把三个变量一个一个地选进来。 如果想要知道模型参数,在Options中选择Estimates。最后Continue-OK即可得出结果。 在结果中可以找到有关Pearson c2统计量和似然比c2统计量的检验结果及参数的估计(如果SPSS的Viewer输出不完全,可以选中不完全的输出,利用Edit-Copy Objects来复制到例如记事本那样的文件中,就可以看到完整输出了)。 下面是实验数据的方差分析和一般线性模型 * RISKFAC.sav:只用农村净水使用% 模型:全模型 模型:女性预期寿命 * 140(Romania ) RISKFAC.sav 模型2异常点诊断 残差 模型:全模型 模型:女性预期寿命 * RISKFAC.sav: 模型2异常点诊断 高杠杆点 不太突出 模型:全模型 模型:女性预期寿命 * RISKFAC.sav: 模型2异常点诊断 Cook距离 140(Romania ) 模型:全模型 模型:女性预期寿命 * 对该例子(RISKFAC.sav)的结果解释 单独用第一个自变量比单独用第二个较好 模型1(相应于模型)的“异常点”为一些非洲国家;它们可能不适合用这个模型。 模型2(相应于模型)的“异常点”为Romania;它可能不适合用这个模型。 从散点图来看,第一个模型更加线性。 两个自变量的模型的“异常点”为单独模型“异常点”的混合。 其实,用一个自变量就够了。这两个自变量是相关的。当然是用第一个了。可能把异常点排除后再重新建模更好。 * 自变量中有定性变量的回归 例1的数据中,还有一个自变量是定性变量“收入”,以虚拟变量或哑元(dummy variable)的方式出现;这里收入的“低”,“中”,“高”,用1,2,3来代表.所以,如果要用这种哑元进行前面回归就没有道理了. 以例1数据为例,可以用下面的模型来描述: * 自变量中有定性变量的回归 现在只要估计b0, b1,和a1, a2, a3即可。 哑元的各个参数a1, a2, a3本身只有相对意义,无法三个都估计,只能够在有约束条件下才能够得到估计。 约束条件可以有很多选择,一种默认的条件是把一个参数设为0,比如a3=0,这样和它有相对意义的a1和a2就可以估计出来了。 对于例1,对b0, b1, a1, a2, a3的估计分别为28.708, 0.688, -11.066, -4.679, 0。这时的拟合直线有三条,对三种家庭收入各有一条:

文档评论(0)

xyz118 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档