- 1、本文档共11页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
虚拟变量﹝哑变量﹞回归
——虚拟变量的应用 多元线性回归 Contents 一、虚拟变量的建立 虚拟变量(Dummy Variable):取值为0和1的变量,当案例属于一个虚拟 变量所代表的类别时,这个虚拟变量就赋值为1,否则变赋值为0 虚拟变量的建立 D1+D2+D3+D4=1,说明D1,D2,D3,D4存在线性相关,造成多重共线性 二、虚拟变量回归系数的意义 因变量为大学生的月支出,自变量有家庭月收入,年级,性别 建立回归方程: 虚拟变量回归系数的意义 虚拟变量回归系数的意义 三、虚拟变量回归系数的检验 补充问题 参照类的选择 根据研究者的选择偏好,无实质性影响 其他编码方法 效应编码(effect coding)、正交编码(orthogonal coding)、非正交编码(nonorthogonal coding) 效应编码 虚拟编码:定义参照类,回归系数表示各类与参照类均值的差 效应编码:其回归系数反映的是各类的平均值与样本平均值的差 四、SPSS实例操作 虚拟变量的建立 1 虚拟变量回归系数的意义 2 虚拟变量回归分析的检验 3 SPSS实例操作 4 Di = 1 ,是女性 = 0 ,不是女性 例1: 例2:大学生年级变量具有四个类别,如何构造? 其中, D1=1,是大一,否则为0; D2=1,是大二,否则为0; D3=1,是大三,否则为0; D4=1,是大三,否则为0。 “虚拟变量陷阱” 解决办法: 原则:当一个分类量具有k个类别时,则仅引入k-1个虚拟变量。 当所有k-1个自变量都取0的时候,那这个案例就属于第k类,我们称这类为参照类,参照类不仅解决了共线性的问题,而且在分析回归结果时也有非常重要的意义 (0) 其中, DG2=1,是大二,否则为0; DG3=1,是大三,否则为0; DG4=1,是大三,否则为0。 DS=1,是女生,否则为0 (1) 参照类:大一男生(所有虚拟变量均取0) 变式1:大二男生(DG2=1,虚拟变量均取0) (2) 变式2:大一女生(DS=1,虚拟变量均取0) (3) 参照类中,b0为直线的截距,b1为直线斜率,即 INCOME 的回归系数 由式(1)到式(2),截距项增加了b2,因此b2就是大二男生比大一男生月支出高的部分;由式(1)到式(3),截距项增加了b4,因此b4就是大一女生比大一男生月支出高的部分。 差别截距:所有表示各类别虚拟变量的回归系数(bj)表示的是该类与参照类的均值之差。(对于序次变量还可计算相邻分类的边际效应,任意两类的边际效应) 1. 只考虑年级对月支出的影响 等价于 单因素方差分析(1-way ANOVA) 2. 同时考虑年级、性别对月支出的影响 等价于 双因素方差分析(2-way ANOVA) 只考虑主效应的双因素方差分析 3. 同时考虑年级、性别、家庭月收入的影响 等价于 协方差分析(ANCOVA) 含交互作用的饱和双因素方差分析 对整个模型的检验(F检验) H0:B1=B2=…=Bk=0 H1:B1,B2,…,Bk中至少有一个不为0 对各回归系数的检验(t检验) H0:Bj=0 H1:Bj≠0 对于虚拟变量,由于取值只能为0和1,所以检验的是取值为1的类别与参照类(所有取值为0)的平均值是否有显著性差异 虚拟变量回归只能做其他类和参照类的比较 直接对任意两个回归系数之差进行检验的方法: 1、建立无差异假设:H0:Bi=Bj; H1:Bi≠Bj 2、构造t统计量: 3、检验其显著性 其中 效应编码原则: 对于前k-1个效应变量,当案例属于该效应变量时,效应变量取值为1,不属于取值为0; 当案例属于最后一类不设虚拟变量的一类时,所有效应变量取-1 例:分析妇女的年龄(AGE)、文化程度(EDU)及居住地(AREA)状况对妇女曾生子女数(CEB)的影响。 其中,文化程度分为文盲或半文盲(1)、小学(2)、初中(3)、 高中(4)和大学(5)共五类 居住地分为城市(1)和农村(2)共两类。 在回归分析中,因变量不仅受量化变量的影响,还受定性变量的影响(如性别,国籍,居住地,文化程度等等) 量化这些定性变量的方法,是构造一个取值1或0 的虚拟变量,1代表该属性出现,0代表某一属性不出现。这种编码只取0和1两个值,平均数的就代表编码为1的这类案例占样本的比例,所以可以对其进行回归。 多重共线性:当自变量高度相关时,回归方程中的自变量就会相互削弱各自对因变量的边际影响
您可能关注的文档
最近下载
- 护理综合技能(第2版)PPT课件 基本护理技术-注射技术.pptx
- 高中数学:习题2:幂函数.doc
- 电力线路迁改工程施工组织设计(完整常用版).doc VIP
- 2023年江西省初中学业水平考试英语真题及答案.doc VIP
- 初中数学:鲁教版(五四制)数学【全八册】知识点总结 .pdf VIP
- LY_T 3314-2022 皂荚培育技术规程.docx
- 钻孔简易水文地质观测规程 .doc VIP
- 2025H1全球短剧营销白皮书.pdf VIP
- 阳光财产保险股份有限公司雇主责任保险条款2011版.pdf VIP
- 神经重症患者感染诊治_美国临床神经医学手册(2017-2018)与中国专家共识(2017)的对比与解读.pdf VIP
文档评论(0)