- 1、本文档共8页,可阅读全部内容。
- 2、原创力文档(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
- 5、该文档为VIP文档,如果想要下载,成为VIP会员后,下载免费。
- 6、成为VIP后,下载本文档将扣除1次下载权益。下载后,不支持退款、换文档。如有疑问请联系我们。
- 7、成为VIP后,您将拥有八大权益,权益包括:VIP文档下载权益、阅读免打扰、文档格式转换、高级专利检索、专属身份标志、高级客服、多端互通、版权登记。
- 8、VIP文档为合作方或网友上传,每下载1次, 网站将根据用户上传文档的质量评分、类型等,对文档贡献者给予高额补贴、流量扶持。如果你也想贡献VIP文档。上传文档
查看更多
分类变量的分析.doc
分类变量的 有序变量、无序变量和二分类,其中有序和无序都是多分类举例说明,有序变量:高血压1期、II期、III期属于有序变量同时也属于等级资料,无序变量:汉族、回族、哈组;工人、农民、教师这样得属于无序变量,男性、女性;死亡、存活属于二分类变量差别性检验中,二分类变量和无序变量都能用卡方检验,只不过一个是四格表卡方一个是RXC列联卡方,而有序变量也就是等级资料就得用秩和检验在多元回归,有序变量和二分类变量都是赋值1、2、3或0、1求得一个OR或RR值,而无序资料就必须要设置哑变量,例如职业工人、农民、教师。你计算得时候赋值为工人=1、农民=2、教师=3,如果你当成连续得变量去计算那么得到一个OR或RR值,解释为每增加一个等级发生某病得危险性增加多少倍。那么工人增加一个等级因为这样得变量各等级之间不存在1、2、3得数学关系。哑变量 D(Dummy Variable),又可称之为属性变量、双值变量、类型变量、定性变量、或二元型变量。(注意:虚拟变量D只能取0或1两个值,即属性之间不能运算!对基础类型或否定类型设 D=0对比较类型或肯定类型设 D=1)如
1 男性
D =
0 女性
但是, 虚拟变量主要是用来代表质的因素,但有些情况下也可以用来代表数量因素。例如:在建立储蓄函数时,“年龄”是一个重要的解释变量。虽然“年龄”是一个数量因素,但为了方便也可以用虚拟变量表示。例如:可以把居民分为两个年龄组:第一组:20~35岁的居民,第二组:35~60岁的居民,用“1”表示第一年龄组;“0”表示第二年龄组,就可以估计年龄对储蓄的影响。
2.虚拟变量的设置规则
(1).两个属性的表示法
如性别有两个属性:用 Di 表示。 即:两个属性引入一个变量即可!
(2).多个属性的表示法。假设学历有四个属性:博士、硕士、本科、本科以下等,则:
四个属性3个变量。
变量
属性 D1 D2 D3 博士 1 0 0 硕士 0 1 0 本科 0 0 1 本科以下 0 0 0 即:m个属性引入(m-1)个变量即可
(3).多个因素各两个属性的表示法。如需要同时表示城乡差别和性别差别
? D1 D2 城市男性 1 1 城市女性 1 0 农村男性 0 1 农村女性 0 0 2.分类变量的作用。
1.可以描述和测量定性因素的影响2.分离异常因素的影响,例如分析我国GDP的时间序列,必须考虑“文革”因素对国民经济的破坏性影响,剔除不可比的“文革”因素。3.检验不同属性类型对因变量的作用例如工资模型中的文化程度、季节对销售额的影响。4.提高模型的精度
3.分类变量的建立模型。
A.解释变量中只有虚拟变量。如:调查某地区性别与收入之间的关系,可以用模型表示如下: Yi =α+βDi + ui Yi代表收入,Di为虚拟变量
B.解释变量中既有虚拟变量又有定变量。如研究消费水平与居民收入的关系时,还要考虑城乡居民消费水平的差异,消费函数可设为: Yi=α0+α1Di+βXi+ ui Yi 为消费水平,Xi 为居民收入,Di为虚拟变量。
假如还要考虑男女消费水平的差异,消费函数为:
Yi =α0+α1D1i+α2D2i+βXi+ui
Yi 为消费水平,Xi 为家庭收入,D1i和D2i为虚拟变量。
4.虚拟变量陷阱
如某些商品的销售量有季节性,假设销售函数为:
当我们引入4个虚拟变量出现了完全多重共线性的问题! OLS(线性回归法)不能使用!,这就是虚拟变量陷阱问题。所以对于具有m个属性的虚拟变量:若模型中含有截距项,引入 m-1个虚拟变量;若模型中不含有截距项,引入 m 个虚拟变量。
三.无序变量分析工具——LOGISTIC
该法研究是 当 y 取某值(如y=1)发生的概率(p)与某暴露因素(x)的关系。 P(概率)的取值波动0~1范围。基本原理:用一组观察数据拟合Logistic模型,揭示若干个x与一个因变量取值的关系,反映y 对x的依存关系。如图;
它的图像是一条S型曲线,有下列特征:
(1)概率0≤pi=E(Yi︱Xi)≤1, 解决了条件概率有可能大于1或小于0的问题;
(2)当Xi→+∞时,pi →1,当Xi→-∞时, pi →0, pi随Xi变化而变化,且变化速率不是常数,更加符合实际情况
对于这个方程我们应该了解到
1.变量的取值logistic回归要求应变量 (Y)取值为分类变量(两分类或多个分类) 自变量(Xi)称为危险因素或暴露因素,可为连续变量、等级变量、分类变量。可有m个自变量X1, X2,… Xm
一个自变量与Y关系的回归模型如:y:发生=1,未发生=0 x 有=1无=0,记为p(y=1/x)表示某暴露因素状态下
您可能关注的文档
- 全国计算机二级C语言程序设计讲义变量的存储类别.ppt
- 全球分布式创新:企业致胜的关键.doc
- 全球制造业未见真改善反弹难持久.ppt
- 八下物理杠杆测试题+答案.doc
- 公司户外烧烤策划方案.doc
- 公路设计方案.doc
- 六年级上册抵抗弯曲教学设计及反思.doc
- 六杆机构设计.doc
- 六神话的产品开发.doc
- 关于中学校园网络化的意义与价值.doc
- 2022-2023学年江苏省常州市溧阳市四年级下学期期中数学真题及答案.pdf
- 2022-2023学年江苏盐城建湖县五年级上册语文期末试卷及答案.pdf
- 2021-2022学年河南省卫辉市人教版三年级上册期末考试数学试卷及答案.pdf
- 2022-2023学年浙江杭州萧山区五年级下册语文期中试卷及答案.pdf
- 2022-2023学年江苏省淮安市二年级下学期数学月考试题及答案.pdf
- 2021年山西公务员申论考试真题及答案-乡镇.pdf
- 2021年普通话考试内容题库最新版.pdf
- 2021-2022年江苏苏州太仓市六年级上册期中语文试卷及答案(部编版).pdf
- 2022-2023学年山东省滨州市博兴县四年级下学期期末数学真题及答案.pdf
- 2021年四川内江小升初语文真题及答案.pdf
文档评论(0)