第十一章线性回归分析.ppt

  1. 1、本文档共150页,可阅读全部内容。
  2. 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
  3. 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载
  4. 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
查看更多
第十一章线性回归分析

1、 Logistic回归模型的构造 若因变量y为连续型正态定距变量时, 可采用多元线性回归分析y与变量 X1, X2, … , Xp之间的关系: y= β0+β1X1+…+βpXp 现y为发生或未发生,购买与不购买等分类变量,不能直接用上模型进行分析。 能否用发生的概率P来直接代替 y呢? p= β0+β1X1+…+βpXp 等式左边 变化范围 P 发生概率 0≤ P≤1 1-P 不发生概率 0≤ P≤1 p/1-p 发生比(ratio) 0 ≤ p/1-p+∞ ln(p/1-p) 对数发生比 -∞ ln(p/1-p) +∞ 2、 Logistic 回归模型 ln[P/(1-P)]= β0+β1X1+…+βpXp. 定义:logit(P)=ln[P/(1-P)]为 Logistic变换, Logistic 回归模型为: logit(P)= β0+β1X1+…+βpXp; 3、二项logistic回归方程中回归系数的含义 logit(P)=β0+β1X1+…+βpXp ; Ω=p/1-p lnΩ=ln(p/1-p)= β0+β1X1+…+βpXp Ω=exp(β0+β1X1+…+βpXp ) 当其他解释变量保持不变时,xi每增加一个单位将引起发生比扩大exp(βi)倍,当回归系数为负时发生比缩小。 二项logistic回归也需进行拟合优度检验、回归方程显著性检验、回归系数显著性检验、残差分析等,本课程介绍从略。 4、二项logistic回归中的虚拟变量 在社会科学研究中,有许多分类变量,比如地区、时期、公司、民族、性别、文化程度、职业和居住地等。我们也可以应用它们的信息进行线性回归,用以解释因变量的变化。但是,必须先将分类变量转换为虚拟变量,然后再将它们引入回归方程,所得到的回归结果才有明确的意义解释。 因为分类变量的各类根本没有定量关系,不能像定距变量那样分析x变化一个单位时,y的平均变化。因此,必须以类为单位,分析各类对y的影响。 例题 分析妇女年龄(AGE)、文化程度(EDU)及居住地(AREA)状况对其曾生子女数(CEB)的影响。 原变量编码值 EDU=1(文盲) AREA=1(城市) EDU=2(小学) AREA=2(乡村) EDU=3(初中) EDU=4(高中) EDU=5(大学) * * 虚拟变量的设置 教育程度 X1 X2 X3 X4 文盲:1 0 0 0 0 小学:2 1 0 0 0 初中:3 0 1 0 0 高中:4 0 0 1 0 大学:5 0 0 0 1 对于具有n个分类的品质变量,只需设置n-1个虚拟变量 * * 以大学作为参照类 教育程度 X1 X2 X3 X4 文盲:1 1 0 0 0 小学:2 0 1 0 0 初中:3 0 0 1 0 高中:4 0 0 0 1 大学:5 0 0 0 0 CEB=1.41+0.068AGE-1.13DE2-1.31DE3-1.58DE4-1.57DE5-0.49DU 方程的R2为0.96,各变量的回归系数均在0.05水平显著。 当案例在两个分类变量都属于参照类时,即本例当受教育程度为文盲或半文盲、居住地为农村时,所有虚拟变量都取值0,回归方程可简化为: CEB=1.41+0.068AGE 表示所有参照类妇女年龄每上升1岁,她们曾生子女数增加0.068个。 当受教育程度为小学,居住地为农村时: CEB=1.41+0.068AGE-1.13 -1.13表示小学文化程度农村妇女比文盲或半文盲农村妇女生育子女数量变化的部分。 CEB=1.41+0.068AGE-1.13DE2-1.31DE3-1.58DE4-1.57DE5-0.49DU 参照类妇女曾生子女数对年龄的回归直线的截距为1.41,年龄每上升1岁,参照类妇女的平均的曾生育子女数上升0.068个;城市妇女比农村妇女的平均曾生子女数少0.49个;小学、初中、高中和大学文化程度妇女的曾生子女数分别比文盲、半文盲妇女平均少1.13、1.31、1.58和1.57个。 至于在应用虚拟变量回归时选择哪一类作为参照类,其实对回归结果没有实质性的影响。这就是说,尽管虚拟变量的回归系数会有所不同,但这只是因为换了参照类而每个系数的意义不同了,但是所计算的各类平均值及它们之间的差不会发生任何变化,因而各类平均值之差 的统计检验结果也不会发生任何变化。所以,如何选择参照类只是研究者自己的偏好,以满

文档评论(0)

yurixiang1314 + 关注
实名认证
内容提供者

该用户很懒,什么也没介绍

1亿VIP精品文档

相关文档